Knowledge Graph技术架构
Knowledge Graph绘制
文献计量方法
科学知识图谱属于科学计量学,因此必然文献计量学的方法,主要包括:
引文分析方法
引文分析是利用各种数学、统计学方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,以便揭示其数量特征和内在规律的一种文献计量分析方法。引文分析大致有三种类型:
1、引文数量研究,主要用于对科学家、出版物和科学机构的定性和定量评估。
2、 引文结构(网状或链状关系)研究,主要用于揭示科学的发展与联系。
3、 引文主题(相关性)研究,主要用于揭示科学的结构以及进行信息检索。
共引分析方法
共引分析是1973年斯莫尔等人就提出把文献共引分析作为计量文献之间关系的一种方法。共引(co-citation)又称被共引,即两篇文献同时被一篇或多篇文献说引用,同时把共同引用这两篇文献的文献数称为共引强度(或共引频率),共引强度越大这两篇文献关系越密切。在共引图谱中,点表示文献,当相关文献对的共被引强度等于或大于某个阈值时,两点就被连接起来。共引分析多用于作者共引分析和期刊共引分析。
耦合分析方法
与共引分析相对应的是耦合分析。几篇文献具有相同的参考文献就形成了文献耦合关系。具有相同参考文献的文献数称为耦合强度。耦合分析包括文献耦合分析、期刊耦合分析、作者耦合分析、学科耦合分析等,分别表示文献、期刊、作者、学科之间具有主题和内容相似性,可做为相关文献分析、作者群体分析和科学演化分析等的依据。
词频分析方法
词频分析是是齐普夫定律为理论基础进行文献内容分析方法。词频分析可分为标题关键词词频分析、摘要词频分析、内容词频分析、引文词频分析和混合词频分析等。词频分析大量应用于科学前沿主题领域和发展趋势等研究。
共词分析
共词分析属于内容分析法的一种。它的原理主要是对一组词两两统计它们在同一篇文献中出现的次数, 以此为基础对这些词进行聚类分析, 生成共词文献簇, 进而分析这些词所代表的学科和主题的结构变化。利用共词分析法及其相关的可视化方法可以进行深入的主题分析, 系统而直观地了解学科结构和发展状况, 并进行学科发展预测。
链接分析方法
链接分析,利用图计算、拓扑学和文献计量学等方法,对网络连接文档、自身属性、连接对象、连接网络等进行分析。链接分析涉及文档包括:页面、目录、域名和站点。在理论上,连接分析与文献计量学中的引文分析有高度的相似。
链接分析运用拓扑学知识通过分析链接网络来研究网络结构,结合社会网络分析可以分析研究和绘制网络信息知识图谱,展示网络信息、知识分布结构和演化规律等。统计分析方法
科学知识图谱构建实用的统计分析方法主要是多元统计分析[12]。多元统计分析是经典统计学的分支,在多个对象或指标相互关联的情况下分析其统计规律。“维度降低技术”是多元统计分析的一个特征,从几何学看这个过程是讲高维空间的目标投影到低维空间。主要的其中包括:
因子分析(主成分分析)
因子分析是用少数几个因子来描述许多指标之间的关系,即将较密切的几个变量归为同一类,每一类变量成为一个因子,以较少的几个因子来反应原资料的大部分信息。
多维尺度分析(MDS)
通过低维空间展示作者(文献)之间联系,并利用平面距离来反映作者(文献)之间的相似度。多维尺度分析的图形显示结果更加直观和形象,因子分析则更容易确定各个学术群体的边界和数目,因此需要同时借助因子分析的结果, 进行知识图谱的绘制。数据挖掘方法
数据挖掘是指从大量的数据中通过算法提取、挖掘未知的、有价值的模式或规律等知识的复杂过程。科学知识图谱的绘制使用了很多数据挖掘方法,常用的方法有聚类分析、数据可视化和社会网络分析等。
聚类分析
聚类分析将物理或抽象的对象集合分成相似的对象类的过程。簇是数据对象的集合,同一个簇中的对象彼此相似,而不同的簇彼此相异。文献聚类分析是聚类分析技术在引文分析中的具体应用。处理方法是将文献通过分词、去停词等方法转化为词向量,并将每个词条赋予不同的权重,这样一篇文献就可以由词条权重值组成的特征向量来表示,所有文献将组成了特征向量空间模型,在该模型中使用聚类分析技术进行引文分析。
数据可视化
数据可视化,也成为信息可视化是指将抽象数据用图形图像等可视化形式表示出来,以利于分析数据、发现规律和支持决策。常用的可视化算法有:
1 、自组织特征映射网络SOM(Self-organizaing Feature Map)是一种基于神经网络的算法,它通过把高维数据映射到低维空间进行聚类,并保持一定的拓扑有序性。
2 、寻径网络图谱PFNET(PathFinder Network)是对不同的概念或实体间联系的相似或差异程度进行评估,应用图论中原理和方法生成的一类特殊的网状模型。
社会网络分析
社会网络分析(Social Network Analysis)也称为结构分析,是将社会结构界定为一个网格,这个网格由成员之间的联系进行连接。社会网络分析聚焦于成员之间的联系而非个体特征,并把共同体视为“个体的共同体”,即视为人们在日常生活中所建立、维护并应用的个人关系的网络。社会网络分析方法被证明可以成功的研究科学合作网络和互联网络所得到的可视化网络,并被用于展示科学计量学的合作网络结构与发展。数据挖掘方法
数据挖掘是指从大量的数据中通过算法提取、挖掘未知的、有价值的模式或规律等知识的复杂过程。科学知识图谱的绘制使用了很多数据挖掘方法,常用的方法有聚类分析、数据可视化和社会网络分析等。
聚类分析
聚类分析将物理或抽象的对象集合分成相似的对象类的过程。簇是数据对象的集合,同一个簇中的对象彼此相似,而不同的簇彼此相异[13]。文献聚类分析是聚类分析技术在引文分析中的具体应用。处理方法是将文献通过分词、去停词等方法转化为词向量,并将每个词条赋予不同的权重,这样一篇文献就可以由词条权重值组成的特征向量来表示,所有文献将组成了特征向量空间模型,在该模型中使用聚类分析技术进行引文分析。
数据可视化
数据可视化,也成为信息可视化是指将抽象数据用图形图像等可视化形式表示出来,以利于分析数据、发现规律和支持决策。常用的可视化算法有:
1 、自组织特征映射网络SOM(Self-organizaing Feature Map)是一种基于神经网络的算法,它通过把高维数据映射到低维空间进行聚类,并保持一定的拓扑有序性。
2、 寻径网络图谱PFNET(PathFinder Network)是对不同的概念或实体间联系的相似或差异程度进行评估,应用图论中原理和方法生成的一类特殊的网状模型。
社会网络分析
社会网络分析(Social Network Analysis)也称为结构分析,是将社会结构界定为一个网格,这个网格由成员之间的联系进行连接。社会网络分析聚焦于成员之间的联系而非个体特征,并把共同体视为“个体的共同体”,即视为人们在日常生活中所建立、维护并应用的个人关系的网络。社会网络分析方法被证明可以成功的研究科学合作网络和互联网络所得到的可视化网络,并被用于展示科学计量学的合作网络结构与发展。知识图谱绘制的步骤
科学知识图谱绘制过程可分为8个步骤【国外知识图谱绘制工具,杨洛斯】(如图所示)即:
1、样本数据检索(对期刊数据WOS、Science Direct或网络数据库Google Scholar、CitSeer等);
2、数据预处理(分词、去停用词、去重、勘误等);
3、选择知识单元(作者、关键词、机构、期刊和文献);
4、构建单元关系(引文分析、共现分析、共引分析、耦合分析、词频分析等);
5、数据标准化(Cosine、Jaccard、Equivalence、Association Strength等);
6、数据分析(因子分析、多维尺度分析、自组织映射图、寻径网络图谱、聚类分析和潜在语义分析等)
7、知识可视化(几何图、主题河图、星团图、冲积图、地形图等);
8、图谱解读(历时分析、突变分析、空间分析、网络分析、地理分布、浏览查询、放大缩小、过滤关联等)。
目前这8个步骤还都是针对中小型数据集,而且步骤之间多以手工过渡为主,缺少对海量文献数据处理过程和全自动完成知识图谱绘制方面的研究。知识图谱绘制的工具
对于知识图谱的绘制工具可分为专用工具如Bibexcel、HiteCite、CiteSpace、NWB Tools和TDA;通用工具如统计分析软件如SPSS和SAS,词频分析工具Word Smith和Word Cat,社交网络分析工具如Pajek和Ucinet,可视化工具如VOSviewer、Net Draw等。
本文是对在知识图谱的整理,借鉴转载自http://www.360doc.com/content/15/0403/15/13987479_460345596.shtml。