基于交叉注意力机制的知识图谱问答模型

时间:2024-04-01 08:04:50

An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge

概述

本文提出一种端到端的模型来对问题进行表示,具体的根据候选答案的不同方面,利用交叉注意力机制,对

问题进行表示和计算最后问题与答案的匹配程度,同时论文通过TransE模型和交叉注意力机制模型联合训练,

融入知识图谱全局信息,减轻OOV(out-of-vocabulary)带来的坏影响。

下图是论文的总体流程架构

基于交叉注意力机制的知识图谱问答模型

主题实体的获取(topic entity)

论文通过调用Freebase API,获得问句中的主题实体

例如:

  • 问句:Who is the president of France?
  • 主题实体:France

候选答案集的获取(candidate set)

作者简单粗暴,与主题实体距离2跳以内的实体都归为候选答案集。

交叉注意力机制

交叉注意力机制的总体流程图如下

基于交叉注意力机制的知识图谱问答模型

  • 问题的嵌入

    论文中词嵌入的方法是通过索引随机初始化的词向量表(可训练的参数),问句中的词经过嵌入后

    得到一个个词向量,之后将得到的词向量输入到双向LSTM中,得到最后每个词的隐状态向量(hidden state)

  • 答案各个方面的嵌入

    文中对答案一共考虑了四个方面,分别是answer entityanswer relationanswer typeanswer context.嵌入方法类似于问题的嵌入,但是唯一需要注意的地方是answer context包含不止一个词语,所以对其包含的词语取平均即可。

  • 答案对问题的注意力机制

    作者认为不同的答案方面会对聚焦于问题中不同的词。具体的公式可以参照原文。

  • 问题对答案的注意力机制

    直觉上,不同的问题会聚焦于答案的不同方面。具体的公式参照原文。

融入全局信息

作者的思路可以用一句话来概括:TransE模型和本文模型联合训练,主要在于提升词嵌入效果。

论文地址