AI推介-大语言模型LLMs论文速览(arXiv方向):2024.02.10-2024.02.15

时间:2024-02-22 22:04:54

2024.02.10–2024.02.15:
arXiv中发表的关于大语言模型(LLMs)相关的文章,已经筛选过一部分,可能有的文章质量并不是很好,但是可以看出目前LLM的科研大方向!

后续我会从中选择出比较有意思的文章进行论文阅读~

1.BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

标题:BioMistral:用于医学领域的开源预训练大型语言模型集

author:Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.10373v1

摘要
近年来,大型语言模型(LLMs)展现出了非凡的多功能性,为医疗保健和医学等专业领域提供了潜在的应用。尽管有各种针对健康领域的开源 LLM,但将通用 LLM 应用于医疗领域仍面临巨大挑战。在本文中,我们介绍了 BioMistral,这是一款专为生物医学领域定制的开源 LLM,采用 Mistral 作为基础模型,并在 PubMed Central 上进行了进一步的预训练。我们对 BioMistral 进行了全面评估,评估基准包括 10 个已确立的英语医学问题解答(QA)任务。我们还探索了通过量化和模型合并方法获得的轻量级模型。我们的结果表明,与现有的开源医学模型相比,BioMistral 的性能更优越,与专有模型相比也更具竞争优势。最后,为了解决英语以外的数据有限的问题,并评估医学 LLM 的多语言通用性,我们将该基准自动翻译成其他 7 种语言并进行了评估。这标志着首次在医学领域对 LLM 进行大规模多语言评估。我们免费发布了数据集、多语言评估基准、脚本以及实验中获得的所有模型。

2.Can we soft prompt LLMs for graph learning tasks?

标题:我们能否为图形学习任务提供软提示 LLM?

author:Zheyuan Liu, Xiaoxin He, Yijun Tian, Nitesh V. Chawla

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.10359v1

摘要
在社交网络、生物数据和引文网络等现实应用中,图在表示复杂关系方面发挥着重要作用。近年来,大语言模型(LLMs)在各个领域取得了巨大成功,这使得将 LLMs 应用于图变得尤为吸引人。然而,由于图模式和文本模式之间的差异和不匹配,直接将 LLMs 应用于图模式面临着独特的挑战。因此,为了进一步研究 LLMs 在理解图形信息方面的潜力,我们引入了 GraphPrompter,这是一个新颖的框架,旨在通过软提示将图形信息与 LLMs 相结合。具体来说,GraphPrompter 由两个主要部分组成:用于编码复杂图形信息的图形神经网络和有效处理文本信息的 LLM。在节点分类和链接预测任务下对各种基准数据集进行的综合实验证明了我们提出的方法的有效性。GraphPrompter 框架揭示了 LLM 在图相关任务中作为预测器的强大功能,使研究人员能够更有效地在各种真实图场景中利用 LLM。

3.Self-Augmented In-Context Learning for Unsupervised Word Translation

标题:用于无监督单词翻译的自增强上下文学习

author:Yaoyiran Li, Anna Korhonen, Ivan Vulić

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.10024v1

摘要
最近的研究表明,虽然大型语言模型(LLMs)在少拍设置中表现出强大的单词翻译或双语词典归纳(BLI)能力,但在没有种子翻译对的无监督情况下,它们的性能仍然无法与基于 "传统 "映射的方法相媲美,特别是对于低资源语言。为了解决 LLM 面临的这一挑战,我们提出了用于无监督 BLI 的自增强上下文学习 (SAIL):从零镜头提示开始,SAIL 从 LLM 中反复诱导出一组用于上下文学习 (ICL) 的高置信度单词翻译对,然后以 ICL 的方式将其重新应用到相同的 LLM 中。我们的方法在两个已确立的、涵盖多种语言对的 BLI 基准上显示出了比 LLM 的零点提示更高的性能,同时也全面超越了基于映射的基准。除了达到最先进的无监督 BLI 性能外,我们还对 SAIL 进行了全面分析,并讨论了其局限性。

4.LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed Tasks in the Wild

标题:LoraRetriever:野外混合任务的输入感知 LoRA 检索与合成

author:Ziyu Zhao, Leilei Gan, Guoyin Wang, Wangchunshu Zhou, Hongxia Yang, Kun Kuang, Fei Wu

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09997v1

摘要
低库自适应(LoRA)为微调大型语言模型(LLM)提供了一种有效而高效的解决方案。LoRA 的模块化和即插即用特性使其能够整合各种特定领域的 LoRA,从而增强 LLM 的能力。以往关于利用多个 LoRA 的研究要么侧重于特定的孤立下游任务,要么在训练过程中固定选择 LoRA。然而,在现实世界的场景中,LLM 会收到涵盖不同任务的各种提示,而且候选 LoRA 池经常会动态更新。为了弥补这一差距,我们提出了 LoraRetriever,这是一个先检索后合成的框架,可根据输入提示自适应地检索和合成多个 LoRA。LoraRetriever 包含三个主要部分:第一,识别和检索与给定输入相关的 LoRA;第二,制定有效整合检索到的 LoRA 的策略;第三,开发高效的批量推理以适应异构请求。实验结果表明,LoraRetriever 的性能始终优于基线,突出了其实用性和多功能性。

5.Enhancing Large Language Models with Pseudo- and Multisource- Knowledge Graphs for Open-ended Question Answering

标题:利用伪知识图谱和多源知识图谱增强大型语言模型,用于开放式问题解答

author:Jiaxiang Liu, Tong Zhou, Yubo Chen, Kang Liu, Jun Zhao

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09911v1

摘要
减少大型语言模型(LLM)的幻觉并增强它们是一项至关重要的任务。虽然现有的一些方法采用了模型自我增强技术,但它们无法有效解决未知事实幻觉问题。使用知识图谱(KG)增强方法无法同时解决不同知识图谱来源的泛化问题和开放式答案问题的增强问题。为了解决这些局限性,有人提出了一种结合伪图生成和原子知识验证的框架。在开放式问题解答设置中使用知识验证来增强 LLM 是通过利用伪图生成来实现的。原子知识验证利用原子级别的知识查询和验证来实现不同KG来源下的通用性。与基线相比,这种方法在开放式问题的 ROUGE-L 分数上至少提高了 11.5 分。对于精确问题,我们观察到其准确性至少提高了 7.5 分。此外,我们还证明了这一框架在不同的幼稚园资源中具有通用性。总之,我们的研究结果为通过结合伪KG和多源KG(尤其是开放式问题)来增强LLM铺平了道路。

6.Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence

标题:生成式人工智能时代大型语言模型基准的不足之处

author:Timothy R. McIntosh, Teo Susnjak, Tong Liu, Paul Watters, Malka N. Halgamuge

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09880v1

摘要
具有新兴功能的大型语言模型(LLM)迅速普及,激发了公众对评估和比较不同 LLM 的好奇心,导致许多研究人员提出了自己的 LLM 基准。我们注意到了这些基准的初步不足,于是开始了一项研究,在功能性和安全性的支柱下,使用我们新颖的统一评估框架,从人员、流程和技术的角度,对 23 个最先进的 LLM 基准进行了严格评估。我们的研究发现了重大的局限性,包括偏差、难以衡量真正的推理、适应性、实施不一致、及时工程的复杂性、评估者的多样性,以及在一次全面评估中忽视文化和意识形态规范。我们的讨论强调,鉴于人工智能(AI)的进步,迫切需要标准化方法、监管确定性和道德准则,包括倡导从静态基准发展到动态行为分析,以准确捕捉法学硕士的复杂行为和潜在风险。我们的研究强调,有必要转变本地语言学习者评估方法的范式,强调合作努力对于制定普遍接受的基准和促进人工智能系统融入社会的重要性。

7.LAPDoc: Layout-Aware Prompting for Documents

标题:LAPDoc:文档布局感知提示

author:Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk Krechel, Darko Obradovic

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09841v1

摘要
最近,在使用海量纯文本数据训练大型语言模型(LLMs)方面取得了进展,从而在许多领域和任务(包括特定文档任务)中实现了强大的泛化能力。与此相反,现在的趋势是训练为文档理解量身定制的多模式转换器架构,这种架构专门设计用于将文本输入与相应的文档布局融合在一起。这涉及一个单独的微调步骤,需要额外的训练数据。目前,还没有与 LLM 具有类似通用性的文档转换器。在本文中,我们研究了通过布局丰富化将纯文本 LLM 用于特定文档任务的可能性。我们探索了用布局信息丰富纯文本 LLM 提示的插入式修改和基于规则的方法。在实验中,我们研究了商业 ChatGPT 模型和开源 LLM Solar 的效果。我们证明,使用我们的方法后,这两种 LLM 在各种标准文档基准测试中的性能都有所提高。此外,我们还研究了噪声 OCR 和布局错误的影响,以及 LLM 在利用文档布局方面的局限性。我们的研究结果表明,与只使用纯文本文档相比,丰富布局可以将纯文本 LLMs 的文档理解性能提高 15%。总之,在基于文本的 LLM 或多模式文档转换器之间选择最佳模型时,应该考虑这种方法。

8.A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts

标题:具有超长语境要点记忆功能的人类启发式阅读代理

author:Kuang-Huei Lee, Xinyun Chen, Hiroki Furuta, John Canny, Ian Fischer

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09727v1

摘要
目前的大型语言模型(LLM)不仅受限于某些最大上下文长度,而且无法稳健地处理长输入。为了解决这些局限性,我们提出了 ReadAgent,这是一个 LLM 代理系统,在我们的实验中,它能将有效上下文长度提高 20 倍。受人类交互式阅读长文档方式的启发,我们将 ReadAgent 作为一个简单的提示系统来实现,该系统利用 LLM 的高级语言能力来:(1)决定将哪些内容一起存储在记忆片段中;(2)将这些记忆片段压缩成称为要点记忆的短小片段记忆;以及(3)在 ReadAgent 需要提醒自己相关细节以完成任务时,采取行动查找原文中的段落。我们使用检索方法、原始长语境和要点记忆对 ReadAgent 进行了基线评估。这些评估是在三个长文档阅读理解任务中进行的:QuALITY、NarrativeQA 和 QMSum。在所有三个任务中,ReadAgent 的表现都优于基线,同时将有效上下文窗口扩展了 3-20 倍。

9.How to Train Data-Efficient LLMs

标题:如何训练数据高效的 LLM

author:Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng

date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09668v1

摘要
大型语言模型(LLM)的训练成本很高。本文研究了预训练 LLM 的数据高效方法,即旨在优化模型质量和训练资源/数据消耗的帕累托前沿的技术。我们试图了解与数据选择例程相关的权衡:(i) 计算成本高昂的数据质量估计;(ii) 最大化特征空间中基于覆盖率和多样性的测量。我们的第一项技术 Ask-LLM 利用指令调整 LLM 的零点推理能力来直接评估训练示例的质量。为了达到目标覆盖率,我们提出了密度采样法(Density sampling),该方法对数据分布进行建模,以选择多样化的样本。在对 19 种采样器(涉及数百个评估任务和预训练运行)的比较中,我们发现 Ask-LLM 和 Density 是各自类别中的最佳方法。覆盖率采样可以恢复完整数据的性能,而在 Ask-LLM 数据上训练的模型始终优于完整数据训练–即使我们剔除了 90% 的原始数据集,收敛速度也能提高 70%。

10.Reinforcement Learning from Human Feedback with Active Queries

标题:通过主动查询从人类反馈进行强化学习

author:Kaixuan Ji, Jiafan He, Quanquan Gu

date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.09401v1

摘要
将大型语言模型(LLM)与人类偏好相匹配是建立现代生成模型的关键,可以通过人类反馈强化学习(RLHF)来实现。尽管性能优越,但目前的 RLHF 方法往往需要大量人类标记的偏好数据,而收集这些数据的成本很高。在本文中,受主动学习成功经验的启发,我们提出了查询效率高的 RLHF 方法来解决这一问题。我们首先将对齐问题形式化为一个上下文决战强盗问题,并设计了一种基于主动查询的近端策略优化(APPO)算法,该算法具有 O ~ ( d 2 / Δ ) \tilde{O}(d^2/\Delta) O~(d2) 的后悔约束和 O ~ ( d 2 / Δ 2 ) \tilde{O}(d^2/\Delta^2) O~(d2/Δ2) 的查询复杂度,其中 d d d 是特征空间的维度, Δ \Delta Δ 是所有上下文的次优差距。然后,我们提出了基于直接偏好优化(DPO)算法的实用版本 ADPO,并将其应用于微调 LLM。我们的实验表明,ADPO 虽然只进行了大约一半的人类偏好查询,但其性能与最先进的 DPO 方法不相上下。

11.Leveraging Large Language Models for Enhanced NLP Task Performance through Knowledge Distillation and Optimized Training Strategies

标题:通过知识提炼和优化训练策略,利用大型语言模型提高 NLP 任务性能

author:Yining Huang

date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.09282v1

摘要
将 GPT-4 等大型语言模型 (LLM) 整合到传统的自然语言处理 (NLP) 任务中,为提高模型性能同时减少对大量人工注释的依赖开辟了新的途径。本文介绍了一种新颖的方法,该方法利用思维链(CoT)提示技术从 GPT-4 中提炼知识,然后将其用于提高较小模型 BERT 在命名实体识别(NER)任务中的效率和有效性。我们的方法包括两个阶段的训练过程:首先使用 GPT-4 注释数据进行预训练,然后结合提炼数据和原始人类注释数据完善模型。结果表明,我们的混合训练策略明显优于仅使用人类注释训练的模型,取得了优异的 F1 分数,为资源有限或封闭网络环境提供了一种经济高效的解决方案。研究还讨论了遇到的挑战,如 LLM 输出的可变性和幻觉倾向,并提出了未来的工作方向,以加强提示设计和注释选择。我们的研究结果表明,LLM 的洞察力与传统 NLP 技术之间存在着良好的协同作用,这将为更易用、更强大的 NLP 应用铺平道路。

12.Personalized Large Language Models

标题:个性化大语言模型

author:Stanisław Woźniak, Bartłomiej Koptyra, Arkadiusz Janz, Przemysław Kazienko, Jan Kocoń

date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.09269v1

摘要
近年来,大型语言模型(LLM)极大地推动了自然语言处理(NLP)任务的发展。然而,在推荐系统和聊天机器人等需要个性化响应的场景中,大型语言模型的通用性带来了限制。本文研究了个性化 LLM 的方法,比较了主观任务中的微调和零点推理方法。结果表明,与非个性化模型相比,个性化微调提高了模型推理能力。在情感识别和仇恨言论检测数据集上进行的实验表明,在不同的 LLM 架构中,个性化方法的性能提升是一致的。这些发现强调了个性化对于提高 LLM 在主观文本感知任务中的能力的重要性。

13.Scaling the Authoring of AutoTutors with Large Language Models

标题:利用大型语言模型扩展自动讲师的编写工作

author:Sankalan Pal Chowdhury, Vilém Zouhar, Mrinmaya Sachan

date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.09216v1

摘要
大型语言模型(LLM)在教育领域有多种应用案例,从自动生成问题到论文评估,不一而足。在本文中,我们将探讨使用大型语言模型(LLM)编写智能辅导系统的潜力。大型语言模型的一个常见缺陷是偏离了理想的教学策略,例如向学生泄露答案,而且一般来说不提供任何保证。我们认为,虽然具有一定防护措施的 LLM 可以代替学科专家,但整体教学设计仍然需要手工制作,以获得最佳学习效果。基于这一原则,我们创建了一个名为 MWPTutor 的端到端辅导系统样本,它使用 LLM 来填充预定义有限状态转换器的状态空间。这种方法保留了学习科学家多年来开发的传统辅导系统的结构和教学法,但又带来了基于 LLM 方法的额外灵活性。通过对两个基于数学单词问题的数据集进行人类评估研究,我们表明,我们的混合方法取得了比指导型(但在其他方面是*形式的)GPT-4 更好的总体辅导得分。MWPTutor 是完全模块化的,社区可以通过改进单个模块或使用不同的教学策略来提高其性能。

14.Premise Order Matters in Reasoning with Large Language Models

标题:大语言模型推理中的前提顺序问题

author:Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou

date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.08939v1

摘要
大型语言模型(LLMs)在各个领域的推理表现都非常出色。然而,在推理任务领域,我们发现了一个弱点:尽管前提排序并不会改变基本任务,但 LLM 对前提排序的影响却出奇地脆弱。特别是,我们发现当前提顺序与中间推理步骤所需的上下文一致时,LLMs 的性能最佳。例如,在演绎推理任务中,以与提示中的基本事实证明相同的顺序(而不是随机排序)呈现前提会大大提高模型的准确性。我们首先在各种 LLM 上检验了前提排序对演绎推理的影响,评估结果表明,改变前提排序会导致性能下降 30% 以上。此外,我们还发布了基于 GSM8K 的基准 R-GSM,以检验排序效应对数学问题求解的影响。

15.Active Preference Learning for Large Language Models

标题:大型语言模型的主动偏好学习

author:William Muldrew, Peter Hayes, Mingtian Zhang, David Barber

date Time:2024-02-12

paper pdf:http://arxiv.org/pdf/2402.08114v1

摘要
随着大型语言模型(LLMs)的功能越来越强大,与人类意图保持一致的微调技术也变得越来越重要。调整这些模型的一个关键考虑因素是如何最有效地利用人力资源,或者在 LLM 本身被用作表达式的情况下如何最有效地利用模型资源。从人类或人工智能偏好出发的强化学习(RLHF/RLAIF)是此类技术最突出的例子,但非常复杂,而且往往不稳定。直接偏好优化(DPO)是最近提出的一种更简单、更稳定的替代方法。在这项工作中,我们为 DPO 开发了一种主动学习策略,以更好地利用偏好标签。我们根据语言模型的预测熵和通过 DPO 优化的隐式偏好模型的确定性度量,为提示/完成对提出了一种实用的获取函数。我们展示了我们的方法是如何提高学习速度和对偏好数据进行微调的最终性能的。

16.Text-centric Alignment for Multi-Modality Learning

标题:以文本为中心的多模态学习对齐

author:Yun-Da Tsai, Ting-Yu Yen, Pei-Fu Guo, Zhe-Yan Li, Shou-De Lin

date Time:2024-02-12

paper pdf:http://arxiv.org/pdf/2402.08086v1

摘要
本研究论文探讨了多模态学习中的模态不匹配难题,即推理过程中可用的模态与训练时可用的模态不同。我们提出了以文本为中心的多模态学习对齐(TAMML)方法,这是一种利用大语言模型(LLM)与上下文学习和基础模型来增强多模态系统在这些条件下的通用性的创新方法。通过利用文本作为统一语义空间的独特属性,TAMML 在处理未见、多样和不可预测的模态组合方面取得了显著改进。TAMML 不仅能适应不同的模态,还能保持强劲的性能,展示了基础模型在克服传统固定模态框架在嵌入表征方面的局限性的潜力。这项研究为模式可用性是动态和不确定的现实世界应用提供了灵活、有效的解决方案,从而为该领域做出了贡献。

17.Lumos : Empowering Multimodal LLMs with Scene Text Recognition

标题:Lumos :利用场景文本识别增强多模态 LLM

author:Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar

date Time:2024-02-12

paper pdf:http://arxiv.org/pdf/2402.08017v1

摘要
我们介绍的 Lumos 是首个具有文本理解能力的端到端多模态问题解答系统。Lumos 的核心是场景文本识别(STR)组件,该组件可从第一人称视角图像中提取文本,其输出用于增强多模态大语言模型(MM-LLM)的输入。在构建 Lumos 的过程中,我们遇到了许多与 STR 质量、整体延迟和模型推理相关的挑战。在本文中,我们将深入探讨这些挑战,并讨论克服这些障碍所采用的系统架构、设计选择和建模技术。我们还对每个组件进行了全面评估,展示了高质量和高效率。

18.Pushing The Limit of LLM Capacity for Text Classification

标题:突破 LLM 文本分类能力的极限

author:Yazhou Zhang, Mengyao Wang, Chenyu Ren, Qiuchi Li, Prayag Tiwari, Benyou Wang, Jing Qin

date Time:2024-02-12

paper pdf:http://arxiv.org/pdf/2402.07470v2

摘要
由于大型语言模型(LLM)在众多下游 NLP 任务中表现出的非凡功效,文本分类的未来研究价值遇到了挑战和不确定性。在这个任务边界逐渐消失的开放式语言建模时代,一个紧迫的问题出现了:在 LLMs 的充分发挥下,我们是否在文本分类方面取得了重大进展?为了回答这个问题,我们提出了 RGPT,这是一种自适应提升框架,通过反复组合强大的基础学习者池来生成专门的文本分类 LLM。基础学习者是通过自适应地调整训练样本的分布和迭代微调 LLM 来构建的。然后,这些基础学习器会通过不断吸收前一个学习器的历史预测结果,组合成一个专门的文本分类 LLM。通过全面的实证比较,我们发现在四个基准测试中,RGPT 明显优于 8 个 SOTA PLM 和 7 个 SOTA LLM,平均超出 1.36%。进一步的评估实验表明,RGPT 明显优于人工分类。

19.Enhancing Multi-Criteria Decision Analysis with AI: Integrating Analytic Hierarchy Process and GPT-4 for Automated Decision Support

标题:用人工智能增强多标准决策分析:整合层次分析法和 GPT-4 实现自动决策支持

author:Igor Svoboda, Dmytro Lande

date Time:2024-02-12

paper pdf:http://arxiv.org/pdf/2402.07404v1

摘要
我们的研究提出了一个新框架,该框架结合了层次分析法(AHP)和生成预训练变换器 4(GPT-4)大型语言模型(LLM),为网络安全多重标准决策(MCDA)带来了新方法。通过利用 GPT-4 自主代理作为虚拟专家的能力,我们实现了决策过程的自动化,提高了效率和可靠性。这种新方法侧重于利用 LLM 进行复杂的决策分析,突出了传统决策模型与尖端人工智能技术之间的协同作用。我们的创新方法展示了在使用人工智能驱动的代理进行复杂决策场景方面取得的重大进展,凸显了人工智能在战略性网络安全应用中的重要性。研究结果揭示了结合 AHP 和 LLMs 的变革潜力,为网络安全及其他领域的智能决策支持系统建立了新的范例。

20.Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models

标题:基于大型语言模型的检索-增强生成中的提示扰动

author:Zhibo Hu, Chen Wang, Yanfeng Shu, Helen, Paik, Liming Zhu

date Time:2024-02-11

paper pdf:http://arxiv.org/pdf/2402.07179v1

摘要
随着大型语言模型(LLMs)在广泛领域的应用迅速增加,其稳健性变得越来越重要。检索增强生成(RAG)被认为是提高 LLM 文本生成可信度的一种方法。然而,基于 RAG 的 LLM 的输出如何受到略有不同的输入的影响还没有得到很好的研究。在这项工作中,我们发现即使在提示语中插入一个简短的前缀,也会导致生成的结果与事实正确答案相去甚远。我们通过引入一种名为梯度引导提示扰动(GGPP)的新型优化技术,系统地评估了此类前缀对 RAG 的影响。GGPP 在将基于 RAG 的 LLM 的输出导向目标错误答案方面取得了很高的成功率。它还能应对提示中要求忽略无关上下文的指令。我们还利用有 GGPP 扰动和无 GGPP 扰动提示之间的 LLM 神经元激活差异,提供了一种方法,通过对 GGPP 生成的提示所触发的神经元激活训练出的高效检测器,提高了基于 RAG 的 LLM 的鲁棒性。我们对开源 LLM 的评估证明了我们方法的有效性。

21.OpenFedLLM: Training Large Language Models on Decentralized Private Data via Federated Learning

标题:OpenFedLLM:通过联合学习在分散的私有数据上训练大型语言模型

author:Rui Ye, Wenhao Wang, Jingyi Chai, Dihan Li, Zexi Li, Yinda Xu, Yaxin Du, Yanfeng Wang, Siheng Chen

date Time:2024-02-10

paper pdf:http://arxiv.org/pdf/2402.06954v1

摘要
大型语言模型(LLMs)在大量公开数据的基础上进行训练,在各个领域都取得了巨大成功。虽然更多的数据有助于提高性能,但一个令人不安的现实是,高质量的公共数据将在几年内耗尽。在本文中,我们为当代语言模型提供了一个潜在的下一步:通过联合学习(FL)在未充分利用的分布式私人数据上进行协作和保护隐私的语言模型训练,即多个数据所有者在不传输原始数据的情况下协作训练一个共享模型。为此,我们建立了一个简洁、集成、便于研究的框架/代码库,名为 OpenFedLLM。它涵盖了用于增强指令遵循能力的联合指令调整、用于与人类价值观保持一致的联合价值对齐以及 7 种代表性 FL 算法。此外,OpenFedLLM 还支持不同领域的训练,包括 8 个训练数据集;并提供全面的评估,包括 30 多个评估指标。通过大量实验,我们发现所有 FL 算法在训练 LLM 上的表现都优于本地训练,在各种环境下都有明显的性能提升。值得注意的是,在金融基准测试中,应用任何 FL 算法微调后的 Llama2-7B 都能以显著优势超过 GPT-4,而通过单独训练获得的模型则不能,这表明客户参与 FL 的动机非常强烈。代码可在 https://github.com/rui-ye/OpenFedLLM 上获取。