Apache Jena - A Bootstrap

时间:2024-04-06 14:03:35
前言
这篇文档属探究立项性质,作为语义网和本体建模工作的延续。
依照NoSQL Distilled上的考察方法,将Apache Jena作为图数据库的泛型考察。
内容
多种出版物上声明主要有四类NoSQL型数据库:document, key/value, column family和graph。那句话怎么说来着,做什么的感觉全世界就是什么;比如做机器学习的感觉全世界的问题都可以建个模型拿些数据预测分析一下(我没有做过机器学习,不知道是不是都是这样),反正我当时做本体建模和推理工作时的感觉是全世界所有的表述性知识都可以纳入本体模型,完全依靠推理就完全可以解决令人烦恼的决策问题.总之,总有先入为主的思维定势,就再努力一把,看看语义网知识如何存储(之前将triple存储到RDBMS数据库中是不大靠谱的,可以预见尤其是在执行deep triple join时)。
以family本体在protege 4中一个实例的面板图为示例,抛开concept taxonomy和SWRL规则推理不谈,NoSQL Distilled中图数据库中介绍的实体连接图,完全可以采用triple表示。
Apache Jena - A Bootstrap
思维风暴
在描述逻辑的框架下,实例的显式和隐式属性均需要在完备的概念和规则定义下执行推理;TBox中术语公理数量一般是固定有限的,ABox中因不可预期的实例数量而断言公理是可以无限可计数的。延伸到分布式存储中,数据存储应用节点均需知悉TBox中所有知识数据,但只需要存储该应用节点所需的ABox知识数据。TBox中数据一般是cache,与中心存储保持一致,甚至如果TBox知识足够小时,完全可以将这部分知识随应用作业一起分发;另一方面显式和隐式知识数据的区分,仅存储显示数据,隐式数据通过推理计算获得,以计算消费为代价换取存储空间。
参考的还是那几本书:
[1]Baader F, McGuinness D L, et al. The description logic handbook: theory, implementation, and applications[M]. Cambridge University Press, 2002.
[2]Hebeler J, Fisher M, et al.Web 3.0与Semantic Web编程[M]. 清华大学出版社, 北京.2010.
[3]D. Allemang,  J. Hendler. 实用语义网RDFS与OWL高效建模(英文版)[M].人民邮电出版社, 北京.2009.
项目概览
Apache Jena(https://jena.apache.org/)是个Triple Store,其系统属性见Jena System Properties by DB-Engines,不支持SQL、分区(partition)、副本(replication)和MapReduce。
DB-Engines上关于RDF Stores的概念性阐述中,有这么一句:RDF stores can be seen as a subclass of graph DBMS,说明RDF Stores是一类图数据库。