论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access

Towards end-to-end reinforcement learning of dialogue agents for information access

KB-InfoBot

与知识库交互的多轮对话模型，放弃符号式的查询语句，转而在知识库上使用soft后验分布来寻找概率最大的信息。

知识库

知识库的数据是常见的（实体关系 head, relation,tail）三元组，本文将其做了一步转化，将三元组数据库转化成表格形式：行为实体(head)的属性(tail)，列为关系(relation)（这里假定各个关系之间相互独立）。并且假定，其中有些数值遗失。(如下图，为电影数据的转化，其中X表示缺失数据) （另外，在测试阶段，不会测试新的实体）

论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access

soft-KB 查找

所谓每个实体的概率，即为基于在t时刻之前的所有用户输入，每个实体被提到的条件概率。相较于符号式的查询（hard-KB lookup)，它可以学习到更好的策略，也可以end2end训练。

总览

论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access

Belief Trackers

infoBot 有 M个 belief trackers （每个slot（每类关系）对应一个belief tracker)，belief tracker 将user 输入作为input, 输出（belief state)：一个分布（所有可能的slot值），一个概率（用户是否知道此slot的值）. 因为输出的size过大，为提高效率，这里做了一个summary（应用entropy)。

Dialogue policy

本文使用两种策略，一种是规则式的，另一种则应用神经网络。

Training

训练时，因为强化学习收敛较慢，特别是在随机初始化时，所以最初，本文先用模仿学习（imitation learning),即，开始时，belief tracker与policy network模仿规则agent。