????尽管大型语言模型(LLM)在处理长上下文输入方面取得了重大进展,但它们仍然存在“中间丢失”问题,即上下文中间的关键信息往往不足或丢失。我们广泛的实验表明,这个问题可能源于旋转位置嵌入(RoPE)的快速长期衰减。
????为了解决这个问题,我们提出了一种特定于层的位置编码缩放方法,为每一层分配不同的缩放因子,减缓RoPE引起的衰减率,使模型更加关注中间上下文。采用专门设计的遗传算法,通过结合贝塞尔曲线来减少搜索空间,从而有效地为每一层选择最佳缩放因子。
????通过综合实验,我们证明我们的方法显著缓解了“中间丢失”的问题。我们的方法使键值检索数据集的平均准确率提高了20%。此外,我们表明,与跨所有层的均匀插值相反,当与PI和动态NTK位置编码方案相结合时,特定于层的插值增强了模型的外推能力。