基于多种数据源的中文知识图谱构建方法研究_胡芳槐.caj

时间:2023-05-27 04:52:12
【文件属性】:

文件名称:基于多种数据源的中文知识图谱构建方法研究_胡芳槐.caj

文件大小:19.29MB

文件格式:CAJ

更新时间:2023-05-27 04:52:12

知识图谱构建

基于多种数据源的中文知识图谱构建方法研究 自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下,知识图谱首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作:1.充分利用互联网中的各类结构化或半结构化的信息,包括各种开放链接数据、在线百科、行业网站等,这些数据在覆盖范围方面有较大的优势,更新速度也比较快。本文描述了从这些结构化或半结构化的数据源中抽取和学习知识的方法,利用这些数据在广度上的优势保证所构建的知识图谱的质量。2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势,包括关系数据库中数据的准确性,互联网中的开放链接数据和领域公开知识库的广度优势,行业数据的深度优势等。提出一种基于多种数据源的知识图谱构建方法,该方法综合利用不同数据源的优势,相互辅助进行知识学习;同时利用多种数据源之间的冗余数据对知识图谱的准确性进行有效地保证。3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据或半结构化数据中得到的知识以及一些通用的启发式规则,自动标注语料。对于网页中文本内容的抽取,提出了一种基于启发式规则的网页正文内容抽取算法,自动识别网页中的正文内容。4.对于行业知识图谱的构建,研究如何利用行业内部的结构化数据,设计了一种易于使用的从关系型数据到知识图谱语义数据的映射语言。同时研究如何自动地从互联网中发现行业数据,包括开放的知识库和行业网站等,提出了一种从少数行业种子关键词开始自动发现互联网中行业数据源的算法。5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性,以“众包”的方式编辑和完善知识图谱。构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。最后,使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,0*实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%以上。同时,本文还构建了一个鱼类知识图谱,由于构建时利用了多个现存的最完整的数据源,因此其覆盖度非常高,包含了已知的32000余种鱼类相关知识。


网友评论