本体建模与语义Web知识发现 6 领域知识的描述与本体建模

时间:2022-12-25 23:10:24

     自然语言一直是一种有效的表示知识和交流知识的有效方法,然而计算机网络环境下的知识库系统却不能用自然语言来表示知识,根本原因是它的二义性和缺乏一致性的结构。要实现计算机自动处理知识并对知识问题进行求解,必须准确描述知识,以某种一致化的结构存储和组织知识。根据本体论的基本观点,任何复杂事物都可以从中剥离出事物的本质,也就是事物的最小化描述,即本体。随着语义网技术的发展,基于可扩展标记语言(XML)的DC(DublinCore)元数据在知识本体的描述中越来越受到青睐。

6.1 本体

     本体明确了领域内共同认可的概念术语,利用领域知识的语义模型表达了概念含义,并在内部层次当中规定了这些概念之间的关系,为知识表示以及获取奠定了基础。

     本体的相关概念:

            本体的概念来自哲学领域,研究事物客观存在的本质,是对客观存在的系统的阐述或说明,重点关注客观存在的抽象本质。

            包含四层含义:

  • 共享指本体中的知识是大家都认同的,是协商一致的;
  • 概念化指对事物的描述表示成一组概念;
  • 明确指本体中全部的术语、属性及公理都有准确的规范;
  • 形式化指计算机可以对其处理。

            Perez等人认为本体可以按分类法来组织,他归纳出本体包含5个基本的建模元语:类、关系、函数、公理和实例,其中,类也可以称作概念。

(1)函数和公理:函数是一类特殊的关系。公理是对本体结构的描述,C包含于D,或C等于D

(2)概念之间的关系:代表了在领域中概念之间的交互作用。从语义上分析,实例表示的就是对象,而概念表示的则是对象的集合,关系对应于对象元组的集合。基本的关系有4中:part-of、kind-of、instance-of和attribute-of。Part-of表达概念之间部分与整体的关系;kind-of表达概念之间的继承关系,类似于面向对象中的父类和子类之间的关系;Instance-of表达概念的实例和概念之间的关系,类似于面向对象中的对象和类之间的关系;attribute-of表达某个概念是另外一个概念的属性。在实际的应用中,不一定要严格地按照上述5类元语来构造本体。同时概念之间的关系也不仅限于上面列出的4种基本关系,可以根据特定领域的具体情况定义相应的关系,以满足应用的需要。

             本体分类:Mizoguchi等人根据语境相关和语境无关的分类标准将本体分为:领域本体、常识本体、元本体和任务本体。

本体建模与语义Web知识发现 6 领域知识的描述与本体建模

(1)顶层本体:主要研究和描述最普通的概念,定义了最基本的概念类、属性及语义关系,如行为、时间、事务等,它不依靠于特定的问题与领域,共享范围广。其他种类的本体都是该类本体的特例。

(2)领域本体:没有顶层本体那么广泛的共享性,是专业性的本体,对某个特定领域中相关的概念及概念之间的关系进行研究,如医学、农业等。

(3)任务本体:定义一些通用的任务或推理活动,主要描述具体的任务中的概念及概念之间的关系,如培育、治疗等。

(4)应用本体:用来描述在一定领域下为完成某项任务而需要的相关术语及术语间的关系。

     从图中可以看出各类型本体相互关联,领域本体和任务本体处于同一研究层次,它们都可以共享顶层本体中定义的通用概念,而应用本体同时依赖特定领域和特定任务或行为。

6.2 领域本体建模

     一,领域本体(Domain Ontology)是专业性的本体,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论。

     构建领域本体要捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。

     领域本体是一个五元组,记作O = {C, A, R, I, M}。其中,C是概念集,指特定领域中属于概念的集合;A表示属性集,主要用来表现概念自身的特征;R是关系,指领域中概念之间的相互作用;I为实例集;M是实例与概念之间的映射关系集合,该映射集将每个实例对应到其所属的概念下。

     构建方法主要有以下几种:

     (1)TOVE法:关于企业建模过程本体

本体建模与语义Web知识发现 6 领域知识的描述与本体建模

      (2)METHONTOLOGY法:构建化学本体。

      (3)骨架法:构建企业本体

本体建模与语义Web知识发现 6 领域知识的描述与本体建模

       (4)KACTUS工程法:关于多用途复杂技术系统的知识建模工程。

       (5)七步法:Standford医学院开发的,主要用于领域本体的构建,1、确定本体的专业领域和范畴;2、考查复用现有本体的可能性;3、列出本体中的重要术语;4、定义类和类的等级体系;5、定义类的属性;6、定义属性的分面;7、创建实例;

      形式背景抽取:本体的应用、目的和范围,均是形式背景的核心内容,从某一领域的形式背景中抽取核心概念是本体构建最关键的一步。一个能代表领域知识的单词或短语可以由术语自动提取出,但是,这仅仅是本体概念的候选,这些候选包括了以下几种情况:可能是概念,可能不是概念,也可能是概念的一个片段,还有可能是一些在特定上下文中出现时才会出现的概念,但在出现的另外的语言环境中却不能称之为概念。

             一个术语可以代表本体概念,前提是可定义其:

   (1)内涵:形式化定义该概念描述的对象集.

   (2)外延:该概念所要阐述的是对象集(实例),即概念实例

   (3)词法实现:多语中同义词与术语本省,含有概念的同义词和多语种表示.

             SSI(structure semantic interconnection)是现阶段语义排歧比较有效的、经典的算法。具体表述为对于一个术语集Tset,首先可以通过WordNet发现它们中的独义词,并将其从Tset移入集合I(I表示已排歧的术语集合)。然后对于Tset中的每个术语t,分别取它在WordNet中的每个语义Si.利用WordNet定义的各种关系,在一定深度范围内遍历术语t在语义Si时和I中各个术语的联系,并把联系程度按照一定方法量化.在术语t的各个语义都计算完成后,取与I联系最紧密的语义.如此循环,直至所有术语都被排歧义或在最近的一次循环中没有术语被排歧义.

   (4)实例抽取:本文对实例抽取采用了两种方法:一是实例关系抽取法,另一种是模型匹配方法.基于模式匹配方法的基本算法思路是首先定义一些模式,然后利用ICT(中文语料)和QTag(英文语料)对领域文集进行词性标注,最后应用模式匹配算法在领域文集中寻找实例.

    本体实例获取是通过一定的学习方法和工具,利用已知本体库从Web语料库或其他知识库中,以自动或半自动地方式发现领域概念实例和属性关系实例.

  在本体构建的初期,首先了解其应用的具体背景和需求.考虑到领域知识的深度和广度以及关系的复杂程度,所以采用本体时尽可能覆盖领域内的所有知识.但一味地扩大本体的范围会造成工程的复杂度和成本的剧增,甚至会造成工程的失败,这是需要注意的.根据领域专家提供的知识和实际需求控制知识范围,尽可能使本体范围在较小的情况下满足要求.本体开发者在实践中肩负完成形式化知识,使编码成为计算机可处理语言的任务,所以本体开发者需了解本领域的基本知识,包括特点,规则以及技术方法,以此作为与领域专家交流合作的基础.

     二,领域属性概念定义

         在创建的概念中,很大部分属于类,对类及其层次,类的属性,属性值等重点定义并创建类中的实例.

  用OWL描述本体,在描述逻辑的基础上建立概念分类层次,然后定义类的属性和创建类的实例.

 三,本体建模工具Protege

        https://protege.stanford.edu/

6.3 XML数据到OWL本体的转换

      XML覆盖了语法层,但是缺乏对概念化共享的有效支持.幸运的是,OWL是一个W3C标准模式,用于描述语义和对互联网上的信息推理,对语义协调的技术有着很好的支持.OWL通过使用类,属性和实例在分布式互联网的环境中支持领域知识的表示.然而,OWL and XML虽然很相似,但毕竟是基于两种不同的表现形式,因而应用时需要互相转换.

本体建模与语义Web知识发现 6 领域知识的描述与本体建模

6.4 基于Ontology的领域知识库构建

       知识服务作为面向内容的增值服务,需要对知识进行系统化,综合化,深入化地加工,组织和处理.知识库和知识发现是知识服务的关键技术,特别在基于知识库的知识发现领域,知识库必须是共享的学习型的,将本体技术引入此领域根本上解决了知识库机器学习的瓶颈问题.

        知识库包括两个部分:一部分有相关术语及其关系构成,另一部分由术语的具体实例及其关系的实例构成.

        知识工程对领域知识进行了三个方面的描述:

        (1)领域知识是一个概念模型,这个概念模型包含概念和概念之间的关系;

        (2)领域知识是概念和概念之间的约束;

        (3)领域知识是陈述如何推导或计算出新概念和新概念之间关系的规则;

        在数据挖掘处理的过程中,领域知识是指一个专门领域的重要问题或概念以及这些问题和概念之间的相互关系.领域知识库是经过合理组织的关于某个特定领域的陈述性知识和过程性知识的集合,知识通过一定的表示,存储在知识库中.在数据库知识发现系统的应用及其他相似系统的应用中,领域知识定义为没有在数据库中明确表达的知识.

        基于本体构建领域知识库的优势:可重用,便于查找,可靠性,有助于任务解析,可维护性.

        领域知识库的构建:知识表示,知识库构建流程,

        领域本体知识库的构建一般包括三部分:知识获取, 构建本体概念树和知识的表示,前两部分起着至关重要的作用.知识获取是将从该领域采集的数据转换成容易存储容易处理的形式,使计算机可以读取。概念树的组织过程主要是把从该领域抽取的概念以及其之间的关系以树型结构表示出来,这两部分的处理关系到之后本体推理中信息检索的质量问题,因为领域知识的限制,这两部分的完成需要相关专家的参与。知识表示是实现本体结构与信息数据的连接。

        该建模过程有如下优势:1)因为本体结构与信息数据的精确映射,可以准确地表示领域知识;2)领域专家的参与可以确保定义概念关系的正确性,实现推理的一致性检测,提高检索的精确性;3)从描述性和验证性两方面对所建本体进行评估,不断修正和完善本体结构。

         以中医喘证知识本体为例

本体建模与语义Web知识发现 6 领域知识的描述与本体建模

本体建模与语义Web知识发现 6 领域知识的描述与本体建模

本体建模与语义Web知识发现 6 领域知识的描述与本体建模

本体建模与语义Web知识发现 6 领域知识的描述与本体建模     

本体建模与语义Web知识发现 6 领域知识的描述与本体建模