- 选题背景和意义:
医患纠纷,即医方(医疗机构)与患方(患者或者患者近亲属)之间产生的纠纷。随着近年来人们对医疗服务需求不断增长,对服务质量的要求和维权意识逐步提高,在中国医疗卫生事业的改革与发展相对滞后的环境下,医患纠纷案件数量逐年上升,在很多地方甚至出现了多起因医患纠纷引发的“医闹”事件。为了有效的解决医患矛盾,改善医患关系,必须提高调解员干涉、调解医患纠纷的效率,同时也应当为医患当事人和普通群众提供了解医患纠纷情况的途径。为此,我们应该对过往发生的医患纠纷案例进行收集和研究,帮助人们参考借鉴其处理手段和结果,吸取经验教训。2013年,中国最高人民法院正式向互联网公布生效的裁判文书,其中医患纠纷类裁判文书(简称医患纠纷案例)是中国人民法院针对医疗机构与患方之间发生的民事纠纷案件所作出的拥有法律效力的权威性书面结论,这无疑是对当前案例决策的重要辅助数据源。
然而,医患纠纷案例是行文格式统一的非结构化中文长文本,其一般由“原告诉称”、“被告辩称”、“审理查明”、“法院认为”和“判决如下”等多个要素构成。每个要素分别占据一到多个段落,要素间顺序固定但段落内容较冗长且结构分散,使得一篇案例包含的信息较为繁杂。这对医患纠纷案例文本的信息挖掘、结构化存储和检索都带来了巨大的困难。针对这一问题,我们可以采用知识图谱技术,有效的对非结构化文本进行结构化。
知识图谱是一种用图结构来建模和记录世界万物间的关联关系和知识的技术,通过知识图谱中的命名实体识别,关系抽取和事件抽取技术,即对文本中的实体检测并分类到预定义类别中,识别出实体及其之间的关系,识别文本中关于事件的信息,就可以将非结构化数据以结构化的形式呈现。通过构建知识图谱,把大量无结构的医患纠纷裁判文书数据进行提取,挖掘,融合,形成结构化知识库,就能够辅助面向医患纠纷的调解员、决策者,为其后续检索类似案例信息等操作提供坚实的数据基础。同时,医患当事人也可以通过参考类似案例,拉近双方期望值,提高纠纷调解的成功率。
目前,社会上还没有真正系统的构建起来的面向医患纠纷类裁判文书的知识图谱,所以本课题研究并构建此类知识图谱,具有社会实践意义。
- 课题关键问题及难点:
- 面向特定领域的本体模型设计
在知识图谱中,本体是知识的抽象和高度概括,是一个领域中的一组概念以及概念间的关系。本体的定义可划分为四层:(1)在将相关领域的知识表述为概念。(2)知识的表达应当是明确的,无二义性的。(3)要将知识形式化的表述出来。(4)知识的表达是要利于共享的。本体由六个元素组成:(1)概念;是事物的实质,在本体中称为类(class)。(2)关系:概念的存在不是孤立的,是相互关联的。(3)属性:对概念的描述。(4)公理:推理规则。(5)函数:概念之间的映射关系。(6)实例:本体中不可再分的单位对象。面向领域的本体设计过程如下:1)确定领域范围,即医疗纠纷调解,主要数据源是可作为调解依据的医学知识和检察院法院公布的医疗纠纷类案例裁判文书。2)复用现有本体。3)列出概念术语。4)定义类与类之间,属性之间的层次关系。5)创建实例,赋予属性。
本体库定义的准确和完善与否直接影响了知识图谱的质量。为了保证知识图谱质量,通常在建模时需要考虑几个关键问题。1)概念划分的合理性,如何描述知识体系及知识点之间的关联关系;2)属性定义方式,如何在冗余程度最低的条件下满足应用和可视化展现;3)事件,时序等复杂知识表示,描述使用匿名节点或边属性;4)后续知识扩展难度,能否支持概念体系的变更,调整属性。
- 面向特定领域的实体和关系抽取工具
实体抽取。实体抽取又称命名实体识别,实体抽取是从文本数据中自动标注出有意义的实体短语,即从文本中抽取实体信息元素,包括人名,组织机构名,地理位置,时间,日期,字符值和金额值等。实体抽取是解决很多自然语言处理问题的基础,也是知识抽取中最基本的任务。要想从文本中实体抽取,首先要从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中去。实体抽取的方法可分为基于规则的方法,基于统计模型的方法和基于深度学习的方法。基于规则的方法主要采用人工编写规则的方式,如Proteus, Netowl系统。基于统计模型,也就是基于机器学习的识别方法又可分为基于特征和基于神经网络的方法。
关系抽取。关系抽取是从文本中得到实体间的语义关系,对于专业领域通常直接使用规则和模式匹配的方式来完成。也可以使用机器学习的方法自动抽取,例如Banko M等【Open information extraction from the web】便实现了Open IE系统来对开放领域下的数据实现自动关系抽取。比较有名的开源关系抽取框架是斯坦福大学的DeepDive,可以进行数据准备和因子图模型构建操作,包括中国版本的CNdeepdive,新增神经网络模型和增量操作。
- 面向特定领域的数据融合技术
知识图谱包含描述抽象知识的本体层和描述具体事实的实例层。本体层用于描述特定领域中的抽象概念,属性和公理;实例层用于描述具体的实体对象,实体间的关系,包含大量的事实和数据。即使在同一个领域也存在大量本体,这些本体描述的内容在语义上往往重叠或关联,但使用的本体在表示语言和表示模型上却具有差异,这便造成了本体异构。另一方面,知识图谱中大量的实例也存在异构问题,同名实例可能指代不同的实体,不同实例可能指代同一个实体。知识融合是解决知识图谱异构问题的有效途径,知识融合建立异构本体或异构实例之间的联系,从而使异构的知识图谱能互相沟通,实现互操作。
总的来说,异构情形分为两个层次:第一个层次是语言层不匹配,用来描述知识的元语言不匹配,包括描述知识语言的语法和所使用的语言原语上的不匹配,还包括定义类,关系和公理等知识成分机制上的不匹配;第二个层次是模型层不匹配,是指由于本体建模方式不同所造成的不匹配,包括不同建模者对事物的概念化抽象不匹配,对相同概念或关系划分方式不匹配,以及对本体成分解释的不匹配。语言层不匹配包括语法,逻辑表示,原语和语言表达能力不匹配,模型层不匹配包括概念化,解释不匹配。
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。