大语言模型：Query Rewriting for Retrieval-Augmented Large Language Models-训练细节

时间：2024-03-16 19:42:02

作者基础版本的使用LLM的rewriter当中也是使用meta-prompt进行query改写；
作者在训练版本使用了T5作为被训练模型，在开始真正训练之前，因为T5模型本身不能完成这个query获取的任务，因此先使用pseudo数据进行训练，使得其具有这个能力，这些数据就是上一步LLM实现query改写获得的数据；
在训练的过程中主要有几个组成：状态（序列×字母可能性）、动作、概率（实际上的改写策略，默认是上一步预热得到的模型）、reward（使用结果得出的结论）、γ（最终得到的reader输出结果，有无限多种）的强化学习方法

相关文章

大语言模型：Query Rewriting for Retrieval-Augmented Large Language Models-训练细节

