(八)相似实体
本文使用word2vec获取实体的词向量,并查找与实体相似的实体名,返回给用户(word2vec使用方法)。
(九)问题推荐
问题推荐包含热门问题和后端生成两部分,分别如下:
-
热门问题
热门问题推荐20条,包含五种功能类型,涉及人物、机构、省市、作品等,问题具有一定的规范性,与训练样本格式上相似。
-
后端生成
随机选取实体的其他五种属性,每种实体+属性的组合,使用simbert(examples/simbert_base.py)生成5个相似问题,再随机选取一条作为问题推荐,最终选取五条问题,推荐给用户。
(十)模型部署上线
模型部署上线使用flask web应用框架,知识图谱使用echarts展示,初步完成整个问答系统。
部分功能展示(查询地址):
SP->O:
SPP->O:
OP->S:
SO->P:
结语:
本文第一次研究通用知识图谱问答,从数据预处理,到问答架构设计,再到整个系统的上线,共经历了三个月,中间遇到了各种各样的问题,通过不断地更新知识图谱,不断地增强训练样本,不断地优化问答流程,最终实现了100ms以内的通用知识图谱问答系统。
说明:本文代码尚未放入github,待本人整理完毕,将在此公开github地址,整理期间,欢迎各位一起交流学习。