An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge
概述
本文提出一种端到端的模型来对问题进行表示,具体的根据候选答案的不同方面,利用交叉注意力机制,对
问题进行表示和计算最后问题与答案的匹配程度,同时论文通过TransE模型和交叉注意力机制模型联合训练,
融入知识图谱全局信息,减轻OOV(out-of-vocabulary)带来的坏影响。
下图是论文的总体流程架构
主题实体的获取(topic entity)
论文通过调用Freebase API
,获得问句中的主题实体
例如:
- 问句:Who is the president of France?
- 主题实体:France
候选答案集的获取(candidate set)
作者简单粗暴,与主题实体距离2跳以内的实体都归为候选答案集。
交叉注意力机制
交叉注意力机制的总体流程图如下
-
问题的嵌入
论文中词嵌入的方法是通过索引随机初始化的词向量表(可训练的参数),问句中的词经过嵌入后
得到一个个词向量,之后将得到的词向量输入到双向LSTM中,得到最后每个词的隐状态向量(hidden state)
-
答案各个方面的嵌入
文中对答案一共考虑了四个方面,分别是
answer entity
、answer relation
、answer type
和answer context
.嵌入方法类似于问题的嵌入,但是唯一需要注意的地方是answer context
包含不止一个词语,所以对其包含的词语取平均即可。 -
答案对问题的注意力机制
作者认为不同的答案方面会对聚焦于问题中不同的词。具体的公式可以参照原文。
-
问题对答案的注意力机制
直觉上,不同的问题会聚焦于答案的不同方面。具体的公式参照原文。
融入全局信息
作者的思路可以用一句话来概括:TransE模型和本文模型联合训练,主要在于提升词嵌入效果。