论文地址:/pdf/2306.
这篇论文主要探讨了推荐系统(RS)如何从大型语言模型(LLM)中获益。论文首先指出,随着在线服务和网络应用的快速发展,推荐系统已成为缓解信息过载和提供个性化建议的关键工具。然而,尽管传统推荐系统(CRM)在过去几十年中取得了显著进展,但仍存在一些局限性,例如缺乏开放领域世界知识和难以理解用户潜在偏好和动机。
论文提出,大型语言模型(LLM)因其在各种自然语言处理(NLP)任务中展现出的通用智能和类人能力而备受关注。LLM的这些能力主要源于其广泛的开放世界知识、逻辑和常识推理能力以及对人类文化和社会的理解。因此,LLM的出现为推荐系统的设计提供了新的研究方向,即是否可以整合LLM的通用知识和能力来弥补CRM的局限性。
论文从两个正交方面系统地总结了现有的研究成果:LLM可以在推荐系统的哪些阶段发挥作用(“WHERE”问题),以及如何适应LLM以改进推荐系统(“HOW”问题)。对于“WHERE”问题,论文讨论了LLM在推荐系统的不同阶段(如特征工程、特征编码器、评分/排名函数、用户交互和管道控制器)可能扮演的角色。对于“HOW”问题,论文调查了训练和推理策略,并提出了两个细粒度的分类标准,即是否在训练期间调整LLM的参数,以及是否在推理阶段涉及传统推荐模型。
此外,论文还强调了在将LLM适应到推荐系统时面临的三个主要挑战:效率、有效性和伦理问题。最后,论文总结了调查结果,并讨论了LLM增强推荐系统的未来前景。为了进一步推动这一新兴方向的研究社区,作者还积极维护了一个GitHub仓库,收集了与此相关的论文和其他资源。
整体而言,这篇论文为理解大型语言模型如何增强推荐系统提供了一个全面的视角,并为未来的研究方向和实践提供了宝贵的指导。
0 概述
随着互联网技术的不断进步和网络应用的蓬勃发展,推荐系统(RS)已经成为解决信息过载问题、满足用户个性化需求的重要工具。尽管推荐系统在过去几十年取得了显著的成果,但传统的推荐模型(CRM)仍存在一些缺陷,例如缺少开放领域的世界知识,以及难以理解用户的潜在偏好和动机。与此同时,大型语言模型(LLM)在各种自然语言处理(NLP)任务中展现出了令人瞩目的通用智能和类似人类的能力,这主要得益于它们丰富的开放世界知识、逻辑和常识推理能力,以及它们对人类文化和社会的深刻理解。因此,大型语言模型的兴起为推荐系统的研究提供了新的方向,即我们是否可以利用大型语言模型的常识和推理能力来弥补传统推荐模型的不足。在本文中,我们将对这一研究方向进行全面的调查,并从实际推荐系统整个流程的角度提供一个概览。具体来说,我们将从两个正交的方面对现有的研究工作进行总结:大型语言模型在推荐系统中的适应位置和适应方式。对于“WHERE”问题,我们将探讨大型语言模型在推荐流程的不同阶段可能扮演的角色,包括特征工程、特征编码器、评分/排序函数、用户交互和流程控制器。对于“HOW”问题,我们将研究训练和推理策略,得出两个细粒度的分类标准,即在训练过程中是否调整大型语言模型,以及在推理过程中是否结合传统推荐模型。我们将分别为“位置”和“方式”问题提供详细的分析和一般发展路径。然后,我们将从效率、有效性和伦理性三个方面阐述将大型语言模型应用于推荐系统中的关键挑战。最后,我们将总结调查结果并讨论未来的前景。
1 引言
随着在线服务的快速发展,推荐系统(RS)在匹配用户的信息需求和缓解信息过载方面变得日益重要。它们为用户提供个性化的建议,覆盖了电子商务、电影、音乐等多个不同领域。尽管推荐任务的形式各异(例如,*推荐和序列推荐),但推荐系统的共同学习目标是估计给定用户对每个候选项目的偏好,并最终为用户提供一个项目的排名列表。
尽管传统的推荐系统在过去几十年中取得了显著进展,但其推荐性能仍不尽如人意,主要受到以下两个缺点的影响:
- 传统的推荐系统通常是面向特定领域的系统,它们通常基于特定领域内的离散ID特征构建。因此,它们缺乏开放世界的知识来获取更好的推荐性能(例如,增强用户兴趣建模和项目内容理解),以及跨不同领域和平台的迁移能力。
- 传统的推荐系统通常旨在以数据驱动的方式优化特定的用户反馈,如点击和购买,其中用户偏好和潜在动机通常基于在线收集的用户行为隐式建模。因此,这些系统可能缺乏推荐解释性,并且无法充分理解用户在各种情境中复杂且易变的意图。此外,用户无法主动引导推荐系统按照他们的要求进行定制化推荐,也无法通过提供详细的自然语言指令来实现。
近年来,随着大型基础模型的出现,它们在处理数据挖掘领域中许多具有挑战性的问题时提供了有前景和通用的见解。一个代表性的形式是大型语言模型(LLM),由于其对开放世界知识的庞大记忆、逻辑和常识推理能力以及对人类社会和文化的意识,它在各种语言处理任务中展现了令人印象深刻的通用智能。通过使用自然语言作为通用的信息载体,不同形式、模态、领域和平台的知识可以被普遍集成、开发和解释。因此,大型语言模型的出现激发了推荐系统设计的灵感,即我们是否可以整合LLM并从它们的通用知识中受益,以解决传统推荐系统的上述固有缺陷。
最近,RS研究人员和从业者已经尝试在当前的推荐流程中使用LLM,并在提升不同规范推荐过程(如特征建模和排名)的性能方面取得了显著进展。一些最近的调查也总结了这一领域的当前状态,主要从如何适配LLM(例如,预训练、微调和提示)的角度来讨论在特定模块中进行预测或解释的方法。然而,仍然缺乏一个全面的视角,即推荐系统如何拥抱大型语言模型,这对于系统地指导LLM增强推荐的研究、实践和服务至关重要。
与现有关于此主题的调查不同,本文从整个工业推荐系统的流程角度提出了LLM增强推荐系统的系统性视角。LLM目前在推荐系统的各种阶段被利用,并通过不同的技术与现有系统集成。为了对最新的研究进展进行全面回顾,如图1所示,我们提出了关于LLM增强推荐系统的研究问题,从以下两个正交的角度进行分析:
- “WHERE”问题关注于在RS中适配LLM的位置,并讨论LLM在当前推荐系统流程的不同阶段可以扮演的角色,即特征工程、特征编码器、评分/排名函数、用户交互和流程控制器。
- “HOW”问题集中于如何适配LLM进行RS,其中两个正交的分类标准被执行:(1)我们是否会在训练阶段冻结大型语言模型的参数,以及(2)我们是否会在推理阶段涉及传统推荐模型(CRM)。
为了提供全面的调查和清晰的发展方向,我们扩大了大型语言模型的范围,并将那些相对较小的语言模型(例如,BERT、GPT2)也纳入讨论,因为它们通过提示在处理文本特征方面发挥了作用,而排除了仅将NLP领域的预训练范式应用于基于ID的传统推荐模型(例如,BERT4Rec)的工作。
为了提供全面的调查和清晰的发展方向,论文在附录A中提供了一个相关的研究工作表格,其中列出了适配LLM到RS的相关研究,并附上了详细的信息,例如LLM参与的阶段、LLM骨干和LLM调整策略等。
2 背景与基础知识
在深入探讨我们调查的细节之前,我们希望介绍以下背景和基本概念:
(1) 基于深度学习技术的现代推荐系统的一般流程
(2) 大型语言模型的一般工作流程和概念。
2.1 现代推荐系统
如图2所示,现代基于深度学习的推荐系统可以被描述为一个包含六个关键阶段的信息循环:(1) 数据收集,(2) 特征工程,(3) 特征编码器,(4) 评分/排名函数,(5) 用户交互,以及 (6) 推荐流程控制器,这些阶段用不同的颜色表示。
• 数据收集。数据收集阶段通过向用户展示推荐项目来收集在线服务的显式和隐式用户反馈。显式反馈表示用户的直接响应,如评分,而隐式反馈则来自于用户行为,如点击、下载和购买。除了收集用户反馈数据外,还需要收集包括项目属性、用户人口统计信息和上下文信息在内的一系列原始特征。收集到的原始数据以JSON等特定格式存储在数据库中,准备进行进一步处理。
• 特征工程。特征工程是选择、操作、转换和增强在线收集的原始数据,将其转换为适合神经推荐模型输入的结构化数据的过程。如图2所示,特征工程的主要输出由各种形式的特征组成,然后将这些特征进一步编码到不同模态的特征编码器中,例如,文本特征的语言模型,视觉特征的视觉模型,以及ID特征的传统推荐模型(CRM)。
• 特征编码器。一般来说,特征编码器接收来自特征工程阶段处理过的特征,并为下一个阶段的评分/排名函数生成相应的神经嵌入。根据数据模态的不同,使用各种编码器。通常,在标准推荐模型中,这个过程是针对独热编码的分类特征执行的嵌入层。其他模态的特征,如文本、视觉、视频或音频,进一步使用并编码以增强内容理解。
• 评分/排名函数。评分/排名函数作为推荐系统的核心部分,根据特征编码器生成的神经嵌入来选择或排列最相关的项目,以满足用户的信息需求。研究人员开发了各种神经方法,基于各种技术(如协同过滤、序列建模、图神经网络等)精确估计用户偏好和行为模式。
• 用户交互。用户交互指的是我们如何向目标用户展示推荐项目,以及用户如何向推荐系统反馈的方式。虽然传统的推荐页面基本上涉及一个项目的单一列表,但最近提出了并研究了各种复杂和多模态的场景。例如,对话式推荐提供了自然语言界面,并实现了多轮交互推荐给用户。此外,多块页面级用户交互也被广泛考虑用于嵌套用户反馈。
• 推荐流程控制。流程控制器监控和控制上述所有推荐流程的操作。它甚至可以对推荐的不同阶段(如匹配、排名、重排)提供细粒度的控制,或者决定结合不同的下游模型和API来完成最终的推荐任务。
2.2 大型语言模型
语言模型旨在对自然语言进行概率建模,以预测给定特定文本上下文的词标记。如今,大多数语言模型都是基于transformer架构构建的,以熟练地对人类语言的上下文依赖性进行建模。它们首先在大量未标记的文本数据上进行预训练,然后针对不同的下游应用进一步在任务导向的数据上进行微调。这些预训练语言模型(PLM)主要分为三类:仅编码器模型,如BERT,仅解码器模型,如GPT,以及编码器-解码器模型,如T5。
大型语言模型(LLM)是上述传统预训练语言模型的扩展,无论是在模型规模还是数据量方面,例如GPT-3,PaLM,LLaMA,ChatGLM。一个典型的LLM通常由数十亿甚至数万亿级别的参数组成,并且在从各种互联网来源(如Wikipedia,GitHub,ArXiv等)爬取的数万亿个标记的文本语料库上进行预训练。正如缩放定律所说明的,通过增加模型规模、数据量和训练规模,可以持续提高模型在广泛的下游NLP任务上的性能。此外,研究人员发现,当模型规模继续扩大并达到一定阈值时,LLM可以展现出出现能力,例如少数样本上下文学习、指令遵循和逐步推理。LLM通过展示在理解自然语言和生成类似人类的文本方面的令人印象深刻的能力,已经彻底改变了NLP领域。此外,LLM已经超越了NLP领域,并且在各种基于深度学习的应用程序中显示出显著的潜力,如信息系统、教育、金融和医疗保健。因此,最近的研究开始探索将LLM应用于推荐系统。凭借广泛的开放世界知识和强大的出现能力,如推理,LLM能够基于用户行为序列分析个体偏好,并促进项目的内容介绍和扩展,从而大大提高推荐性能。此外,LLM还可以支持更复杂的场景,如对话式推荐、可解释推荐,以及任务分解和工具使用(如搜索引擎)以增强推荐。
3 “WHERE”问题
3.1 特征工程
在推荐系统中,特征工程是一个至关重要的环节,它直接影响到模型的性能和推荐结果的质量。大型语言模型(LLM)在特征工程中的应用,为处理“where”问题提供了新的解决方案。LLM通过其强大的自然语言处理能力,可以有效地增强推荐系统中的特征表示,提高推荐的准确性和多样性。以下是LLM在特征工程方面处理“where”问题的详细介绍。
3.1.1 用户和项目级特征增强
LLM可以通过生成辅助特征来增强用户和项目的特征表示。这些特征可以帮助推荐系统更好地理解用户的偏好和项目的内容,从而提高推荐的准确性。
用户侧特征增强
用户侧特征增强主要关注于通过LLM来捕捉用户的隐含兴趣和偏好。例如,LLM可以用于生成用户的偏好概要,这些概要可以从用户的历史行为、评分、评论等文本信息中提取出来。通过这种方式,即使是那些在传统推荐系统中难以捕捉的复杂和微妙的用户偏好,也可以被有效地表示和利用。
项目侧特征增强
项目侧特征增强则侧重于通过LLM来丰富项目的特征描述。例如,对于电商推荐系统,LLM可以自动生成关于商品的详细描述、评价摘要或者用户反馈的总结。这些生成的特征不仅可以提供更多的信息给推荐模型,也可以帮助解决长尾商品缺乏足够描述信息的问题。
3.1.2 实例级样本生成
LLM还可以用于生成合成的训练样本,这对于数据稀疏或者冷启动问题尤为重要。通过生成额外的训练样本,LLM可以帮助推荐系统在训练过程中考虑到更多的情况和偏好组合,从而提高模型的泛化能力和推荐质量。
数据增强
LLM可以通过生成与真实数据类似的合成数据来增强训练集。这种方法可以帮助模型在面对真实世界中的用户行为时,拥有更好的泛化性能。例如,LLM可以生成新的用户评论或者项目描述,这些合成文本可以用来模拟不同的用户偏好和项目特征。
隐私保护
此外,LLM生成的合成样本还可以用于保护用户隐私。通过在推荐系统中使用合成数据进行训练,可以在不泄露真实用户信息的情况下,充分利用用户行为数据来提升推荐效果。
3.1.3 特征转换和编码
LLM不仅可以生成新的特征,还可以用于特征的转换和编码。通过将文本信息转换为密集的向量表示,LLM可以作为特征编码器,将非结构化的文本数据转换为结构化的特征表示。
文本特征编码
LLM可以将用户的评论、项目的描述等文本信息编码为密集的向量。这些向量可以捕捉文本中的语义信息,并作为推荐模型的输入特征。与传统的文本处理方法相比,LLM可以提供更深层次的语义理解,从而提高特征的表达能力。
多模态特征融合
在多模态推荐系统中,LLM可以用于融合来自不同来源的特征,例如文本、图像和声音等。LLM可以处理多种模态的输入,并生成统一的特征表示,这对于提升推荐系统的准确性和多样性具有重要意义。
3.1.4 交互式特征工程
LLM还可以支持交互式的特征工程,这允许推荐系统在与用户交互的过程中动态地生成和调整特征。
个性化推荐
在个性化推荐场景中,LLM可以根据用户的实时反馈和行为来生成个性化的特征。例如,当用户对推荐结果表达不满时,LLM可以即时生成新的提示,以引导推荐系统更好地理解用户的需求。
交互式数据收集
此外,LLM还可以用于交互式数据收集,通过与用户的对话来收集用户的偏好和反馈。这些交互数据可以作为特征工程的一部分,帮助推荐系统更好地理解用户,并提供更准确的推荐。
3.1.5 结论
LLM在特征工程方面的应用为推荐系统带来了新的机遇。通过生成辅助特征、合成样本、特征转换和编码,以及支持交互式特征工程,LLM可以显著提高推荐系统的性能和用户体验。随着LLM技术的不断进步,我们可以期待其在未来推荐系统中发挥更大的作用,特别是在处理稀疏数据、冷启动问题和提升推荐多样性方面。然而,LLM在特征工程中的应用也面临着一些挑战,如如何平衡生成特征的质量和数量、如何处理潜在的偏见和隐私问题等,这些都是未来研究需要关注的方向。
3.2 特征编码器
在推荐系统中,特征编码器的作用是将原始特征转换为模型可以理解的表示形式,这些表示形式通常被称为嵌入(embeddings)。大型语言模型(LLM)在特征编码器方面的应用,为推荐系统的特征表示带来了革命性的改进。LLM不仅能够处理文本数据,还能够理解和整合多模态信息,从而提供更丰富、更深层次的特征表示。以下是LLM在特征编码器方面处理“where”问题的详细介绍。
3.2.1 文本特征的深度表示
LLM在处理文本特征时,能够捕捉到文本数据中的复杂语义和上下文信息。与传统的文本处理方法相比,LLM可以生成更深层次的语义表示,这在推荐系统中尤为重要。例如,对于商品描述或用户评论这类文本特征,LLM可以通过预训练学到的广泛知识,将这些文本转换为密集的向量表示,这些向量能够捕捉到文本的深层含义和用户的情感倾向。
3.2.2 多模态特征整合
推荐系统往往需要处理多种类型的数据,包括文本、图像、视频等。LLM可以通过多模态学习的方法,整合来自不同模态的特征。例如,LLM可以将商品的文本描述和图片信息结合起来,生成一个综合的特征表示,这不仅能够提高推荐的准确性,还能够增强推荐的多样性。
3.2.3 个性化特征编码
用户的兴趣和偏好是多变的,这就要求推荐系统能够捕捉到这些动态变化。LLM可以通过个性化的特征编码来适应这种变化。通过在用户的交互过程中不断更新用户的特征表示,LLM能够提供更贴合用户当前兴趣的推荐。此外,LLM还可以根据用户的特定需求,动态生成特定的特征表示,从而实现个性化推荐。
3.2.4 交互式特征编码
在一些复杂的推荐场景中,用户可能需要通过自然语言与推荐系统进行交互。LLM可以作为一个交互式的特征编码器,实时理解用户的查询意图,并根据用户的指令生成相应的特征表示。这种方式不仅可以提高用户的满意度,还可以帮助推荐系统更好地理解用户的需求。
3.2.5 跨域特征表示
在跨域推荐系统中,如何将不同领域或不同平台的数据整合到一起是一个挑战。LLM通过其强大的语言理解和生成能力,可以作为跨域特征表示的桥梁。LLM可以将来自不同领域的文本数据转换为统一的特征空间,从而实现跨域推荐。
3.2.6 知识增强的特征编码
LLM在预训练阶段学习了大量的知识,这些知识可以用于增强推荐系统中的特征表示。通过将这些知识融入到特征编码过程中,LLM可以帮助推荐系统更好地理解用户和项目的背景信息,从而提供更准确和丰富的推荐。
3.2.7 实时特征更新
推荐系统需要实时更新用户和项目的特征表示,以适应用户兴趣的变化和新项目的加入。LLM可以通过在线学习或增量学习的方法,实现特征表示的实时更新。这种方式可以确保推荐系统始终反映用户的最新偏好和项目的最新状态。
3.2.8 结论
LLM在特征编码器方面的应用,为推荐系统的特征表示提供了新的可能性。通过深度表示文本特征、整合多模态信息、个性化和交互式的特征编码、跨域特征表示、知识增强的特征编码以及实时特征更新,LLM能够显著提高推荐系统的性能和用户体验。然而,LLM在特征编码器中的应用也面临着一些挑战,如如何平衡模型的复杂性和计算效率、如何处理潜在的偏见和隐私问题等,这些都是未来研究需要关注的方向。随着LLM技术的不断进步,我们可以期待其在未来推荐系统中发挥更大的作用,特别是在处理大规模数据、提供个性化推荐和增强推荐多样性方面。
3.3 评分/排名函数
在推荐系统中,评分/排名函数是决定最终推荐列表的关键组件。它根据用户的历史行为、偏好以及其他相关信息来评估用户对候选项目的偏好程度,并据此进行排序。大型语言模型(LLM)在这一领域的应用,为评分和排名任务带来了新的方法和视角。以下是LLM在评分/排名函数方面处理“where”问题的详细阐述。
3.3.1 理解评分/排名函数的作用
评分/排名函数的核心作用是对用户和项目之间的潜在关系进行建模。在传统的推荐系统中,这通常通过协同过滤、内容推荐或混合方法来实现。LLM的引入为这一任务提供了新的可能性,尤其是在理解和表达用户偏好的复杂性方面。
3.3.2 LLM在评分任务中的应用
LLM可以通过以下方式参与评分任务:
点式评分(Pointwise Scoring)
在点式评分任务中,LLM作为函数直接为用户对项目的偏好程度打分。这通常通过微调LLM,使其学习将用户和项目的特定表示转换为一个连续的评分值。例如,可以设计提示(prompt)来包含用户和项目的相关信息,然后让LLM生成一个表示用户偏好的分数。
评分预测(Rating Prediction)
在评分预测任务中,LLM可以被训练来预测用户对项目的评分。这通常涉及到从用户的历史评分数据中学习用户的偏好模式,并将这些模式应用于新的用户-项目对。
3.3.3 LLM在排名任务中的应用
LLM在排名任务中的应用更为复杂,因为它不仅需要评估单个用户对项目的偏好,还需要在多个项目之间进行比较和排序。以下是LLM在排名任务中的几种应用方式:
列表式排名(Listwise Ranking)
在列表式排名任务中,LLM需要对一个项目的列表进行整体排序。这可以通过生成一个考虑所有项目和用户偏好的全局表示来实现。LLM可以学习如何根据用户的偏好对项目进行排序,从而生成一个优化的推荐列表。
配对式排名(Pairwise Ranking)
配对式排名任务涉及到将两个项目进行比较,并确定用户更偏好哪一个。LLM可以通过学习用户的历史偏好数据来预测用户在面对两个项目时的选择。
3.3.4 利用LLM的上下文理解能力
LLM的一个关键优势是其能够理解和处理复杂的上下文信息。在评分/排名任务中,这意味着LLM可以考虑到用户的当前情境、历史行为模式以及项目的多维特征。通过这种方式,LLM能够生成更加个性化和上下文相关的评分和排名。
3.3.5 微调和提示工程(Prompt Engineering)
为了使LLM更好地适应评分/排名任务,研究者们采用了微调和提示工程的技术。微调是指在推荐系统的特定数据集上进一步训练LLM,以使其更好地理解用户和项目的特定表示。提示工程则涉及到设计合适的提示模板,以引导LLM生成有用的输出。
3.3.6 处理长序列和动态数据
推荐系统中的用户行为序列往往是长期的,并且随着用户与系统的交互而不断变化。LLM可以通过其强大的序列建模能力来处理这些长序列数据,并能够适应动态变化的用户偏好。
3.3.7 面临的挑战和未来方向
尽管LLM在评分/排名函数方面展现出巨大潜力,但仍面临一些挑战,如如何处理大规模数据集、如何确保生成的评分和排名的一致性和可解释性、以及如何保护用户隐私等。未来的研究需要在这些方面进行深入探索,并不断优化LLM在推荐系统中的应用。
3.3.8 结论
LLM在评分/排名函数方面的应用为推荐系统带来了新的机遇和挑战。通过利用LLM的上下文理解能力、微调和提示工程以及处理长序列和动态数据的能力,可以显著提高推荐系统的性能和用户体验。然而,为了实现这些潜力,未来的研究需要解决LLM在推荐系统中应用的一系列挑战,以确保推荐结果的准确性、个性化和可解释性。随着LLM技术的不断进步,我们有理由相信,LLM将在未来的推荐系统中扮演越来越重要的角色。
3.4 用户交互
在推荐系统中,用户交互是一个关键环节,它直接影响到推荐结果的相关性和用户满意度。大型语言模型(LLM)在用户交互方面的应用,为提升用户体验和推荐质量提供了新的可能性。LLM通过其强大的自然语言处理能力,可以更深入地理解用户的需求和意图,从而实现更加精准和个性化的推荐。以下是LLM在用户交互方面处理“where”问题的详细阐述。
3.4.1 理解用户交互的重要性
用户交互在推荐系统中的作用是多方面的。它不仅能够帮助系统收集用户的显式反馈,如评分和喜欢,还能够通过用户的行为数据来推断用户的隐含偏好。此外,用户交互还能够提供上下文信息,帮助推荐系统更好地理解用户在特定情境下的需求。
3.4.2 LLM在任务导向用户交互中的应用
任务导向用户交互是指用户有明确目标,如寻找特定类型的商品或服务,推荐系统需要提供相应的帮助和支持。在这种情况下,LLM可以通过以下方式提升用户交互的质量:
意图识别和理解
LLM可以理解用户的查询意图,并提供相应的推荐。例如,用户可能会通过自然语言描述他们想要的商品,LLM可以解析这些描述并识别出关键信息,如商品类别、品牌、价格范围等。
动态推荐和解释
LLM可以在用户交互过程中动态地生成推荐列表,并提供解释性的反馈。这不仅可以增强用户的决策过程,还可以提高推荐系统的透明度和可解释性。
3.4.3 LLM在开放式用户交互中的应用
开放式用户交互是指用户没有明确目标,推荐系统需要通过与用户的自然语言对话来探索用户的兴趣和需求。LLM在这种场景中的应用包括:
主动探索用户兴趣
LLM可以通过开放式的对话来主动探索用户的兴趣爱好,这可以通过提问、分享相关信息或提出建议来实现。通过这种方式,LLM可以逐渐构建起用户的偏好画像,并提供更加个性化的推荐。
引导式对话和推荐
LLM可以通过引导式的对话来帮助用户明确他们的需求。例如,LLM可以提出一系列问题来帮助用户细化他们的搜索条件,或者通过提供相关信息来引导用户发现他们可能感兴趣的新产品或服务。
3.4.4 LLM在多轮对话和上下文理解中的应用
在推荐系统中,用户交互往往不是一次性的,而是通过多轮对话来逐步展开的。LLM的长序列建模能力使其能够在多轮对话中保持上下文的连贯性,从而提供更加准确和相关的推荐。
上下文感知的对话
LLM可以理解对话的历史上下文,并在此基础上生成响应。这意味着LLM可以根据之前的对话内容来调整其推荐策略,以更好地适应用户的变化需求。
个性化和情境化推荐
LLM可以根据对话的上下文信息来生成个性化和情境化的推荐。例如,如果用户在对话中提到了特定的场合或活动,LLM可以推荐与这些场合相关的商品或服务。
3.4.5 利用LLM的知识和推理能力
LLM在预训练阶段积累了大量的知识和推理能力,这些能力可以在用户交互中得到充分利用。LLM不仅可以提供基于事实的知识性回答,还可以进行逻辑推理,帮助用户解决复杂的问题。
知识增强的交互
LLM可以利用其知识库来回答用户的问题,提供有关商品、服务或一般信息的详细解释。这种知识增强的交互可以提高用户的信任感,并增加推荐的权威性。
推理和决策支持
LLM还可以通过推理来支持用户的决策过程。例如,LLM可以提供比较分析,帮助用户评估不同选项的优缺点,或者提供建议,帮助用户做出选择。
3.4.6 面临的挑战和未来方向
尽管LLM在用户交互方面展现出巨大潜力,但仍面临一些挑战,如如何处理用户的非结构化语言、如何保护用户隐私、如何确保交互的流畅性和自然性等。未来的研究需要在这些方面进行深入探索,并不断优化LLM在推荐系统中的应用。
3.4.7 结论
LLM在用户交互方面的应用为推荐系统带来了新的机遇和挑战。通过理解用户的查询意图、提供动态推荐和解释、主动探索用户兴趣、保持上下文感知的对话、利用知识和推理能力,LLM能够显著提高推荐系统的性能和用户体验。然而,为了实现这些潜力,未来的研究需要解决LLM在推荐系统中应用的一系列挑战,以确保推荐结果的准确性、个性化和可解释性。随着LLM技术的不断进步,我们有理由相信,LLM将在未来的推荐系统中扮演越来越重要的角色。
3.5 管道控制器
在推荐系统中,管道控制器负责协调和管理整个推荐流程,包括数据预处理、模型训练、推荐生成、结果展示等各个环节。大型语言模型(LLM)在管道控制器方面的应用,为推荐系统的灵活性、自动化和智能化带来了新的可能性。LLM的引入不仅可以优化推荐流程,还能够提供更加个性化和动态的推荐体验。以下是LLM在管道控制器方面处理“where”问题的详细阐述。
3.5.1 推荐流程的自动化和优化
LLM可以作为推荐系统中的智能管道控制器,自动调整和优化整个推荐流程。通过理解用户的行为和偏好,LLM可以决定在何时使用特定的数据处理技术、何时切换到不同的推荐算法,以及如何调整推荐结果的展示方式。
3.5.2 实时交互与推荐生成
LLM可以实时响应用户的查询和反馈,动态地生成推荐。在用户与推荐系统交互的过程中,LLM可以实时分析用户的输入,理解用户的需求,并迅速生成符合用户当前情境的推荐列表。
3.5.3 个性化推荐流程控制
LLM可以根据每个用户的独特偏好和历史行为来定制个性化的推荐流程。例如,对于不同的用户,LLM可以决定采用不同的特征工程策略、模型训练方法或推荐生成技术,以提供更加个性化的推荐体验。
3.5.4 上下文感知的推荐管理
LLM具备强大的上下文理解能力,可以利用这一优势来管理推荐流程。LLM可以根据用户的上下文信息,如时间、地点、设备等,来调整推荐策略和展示格式,确保推荐内容的相关性和时效性。
3.5.5 多模态数据处理和融合
在现代推荐系统中,用户交互和内容消费往往是多模态的,包括文本、图像、声音等。LLM可以作为一个多模态数据处理和融合的中心节点,整合来自不同模态的信息,以提供更全面和丰富的推荐。
3.5.6 推荐系统的可解释性和透明度
LLM可以提供关于推荐决策的自然语言解释,增强推荐系统的可解释性和透明度。通过解释推荐背后的原因和逻辑,LLM可以帮助用户更好地理解推荐结果,从而提高用户的信任和满意度。
3.5.7 推荐系统的自我调整和学习
LLM可以赋予推荐系统自我调整和学习的能力。通过持续监控推荐效果和用户反馈,LLM可以识别推荐流程中的不足之处,并自动调整参数或策略以优化性能。
3.5.8 冷启动问题的解决
在处理新用户或新项目时,推荐系统面临所谓的冷启动问题。LLM可以通过主动学习用户的初始反馈,快速构建起用户的偏好模型,从而提供有效的推荐,缓解冷启动问题。
3.5.9 推荐系统的伦理和合规性
LLM可以帮助推荐系统遵守伦理和合规性要求。通过内置的伦理和合规性检查机制,LLM可以确保推荐内容不违反相关法律法规,并避免推荐偏见和歧视。
3.5.10 面临的挑战和未来方向
尽管LLM在管道控制器方面展现出巨大潜力,但仍面临一些挑战,如如何处理大规模数据集、如何确保生成的推荐结果的公平性和隐私保护、如何实现跨域和跨平台的推荐等。未来的研究需要在这些方面进行深入探索,并不断优化LLM在推荐系统中的应用。
3.5.11 结论
LLM在管道控制器方面的应用为推荐系统带来了新的机遇和挑战。通过自动化和优化推荐流程、实时交互与推荐生成、个性化推荐流程控制、上下文感知的推荐管理、多模态数据处理和融合、推荐系统的可解释性和透明度、自我调整和学习、冷启动问题的解决、伦理和合规性,LLM能够显著提高推荐系统的性能和用户体验。然而,为了实现这些潜力,未来的研究需要解决LLM在推荐系统中应用的一系列挑战,以确保推荐结果的准确性、个性化和可解释性。随着LLM技术的不断进步,我们有理由相信,LLM将在未来的推荐系统中扮演越来越重要的角色。
4 “HOW”问题
在论文中,作者提出了一个关于如何在推荐系统中适应大型语言模型(LLM)的分类框架。这个框架根据是否对LLM进行调参以及是否在推理阶段使用传统推荐模型(CRM)将方法分为四个象限。
第一象限:对LLM调参;在推理阶段使用CRM(Quadrant 1)
在这个象限中,研究者们通常会对LLM进行调参,以便更好地适应推荐任务的特定需求。调参可以是全参数微调,也可以是参数高效的调参方法,如LoRA或prompt tuning。在推理阶段,调参后的LLM通常会与传统推荐模型结合使用,以利用CRM在处理用户行为数据和优化推荐性能方面的成熟技术。
应用场景
- 特征编码器:调参后的LLM可以作为特征编码器,将文本数据转换为密集的向量表示,这些向量随后被输入到CRM中进行进一步的处理和预测。
- 多任务学习:在某些情况下,调参的LLM可以同时执行多个推荐任务,如评分预测、点击率预估和个性化推荐列表生成。
优点
- 性能提升:通过调参,LLM可以更好地捕捉到推荐任务的特定模式和特征,从而提高推荐性能。
- 协同效应:结合LLM和CRM的优势,可以提供更准确和个性化的推荐。
挑战
- 计算成本:全参数微调可能需要大量的计算资源。
- 调参难度:找到最佳的调参策略可能需要大量的实验和调整。
第二象限:不对LLM调参;在推理阶段使用CRM(Quadrant 2)
在这个象限中,LLM不进行调参,而是直接作为推荐系统中的一个特征工程工具。LLM的预训练知识被用来提取和增强特征,这些特征随后被输入到CRM中进行推荐。
应用场景
- 内容提取:LLM可以用来提取项目内容的关键信息,如新闻摘要、产品描述等。
- 用户意图理解:LLM可以分析用户的查询和反馈,以更好地理解用户的意图和偏好。
优点
- 灵活性:不需要对LLM进行特定任务的调参,使得模型更易于部署和适应不同的推荐场景。
- 利用预训练知识:LLM的预训练知识可以直接用于特征工程,提高推荐的准确性。
挑战
- 适应性限制:未经调参的LLM可能无法完全适应推荐任务的特定需求。
- 特征匹配:需要确保LLM提取的特征与CRM能够有效地结合。
第三象限:不对LLM调参;在推理阶段不使用CRM(Quadrant 3)
在这个象限中,LLM不被调参,并且在推理阶段独立使用,不依赖于CRM。这种方法主要应用于少样本或零样本推荐场景,通常依赖于LLM的预训练知识来生成推荐。
应用场景
- 开放域推荐:在没有足够用户行为数据的情况下,LLM可以基于用户的自然语言描述来生成推荐。
- 即时推荐:在需要快速响应用户请求的场景中,LLM可以提供即时的推荐结果。
优点
- 快速响应:无需依赖复杂的CRM,LLM可以快速生成推荐。
- 零样本能力:LLM的预训练知识使其能够在没有用户历史数据的情况下进行推荐。
挑战
- 效果限制:未经调参的LLM可能无法提供高质量的推荐结果。
- 数据稀疏性:在数据稀疏的场景中,LLM可能难以捕捉到用户的长期偏好。
第四象限:对LLM调参;在推理阶段不使用CRM(Quadrant 4)
在这个象限中,LLM会进行调参,但在推理阶段不使用CRM。调参后的LLM直接承担评分和排序的任务,通常通过推荐训练数据进行微调。
应用场景
- 个性化评分:调参后的LLM可以为用户对项目进行个性化评分。
- 排序优化:LLM可以通过学习用户的偏好来优化项目的排序。
优点
- 个性化推荐:通过调参,LLM可以更好地捕捉用户的个性化需求。
- 端到端学习:LLM可以直接从用户反馈中学习,无需依赖CRM。
挑战
- 调参难度:找到适合推荐任务的调参策略可能具有挑战性。
- 推理效率:LLM在推理阶段可能需要较多的计算资源。
4.1 在训练期间调整LLM的参数
在训练期间调整大型语言模型(LLM)的参数是将LLM应用于推荐系统的关键步骤之一。这种调整通常被称为微调(fine-tuning),旨在使LLM更好地适应特定的推荐任务。微调过程涉及到在推荐系统的相关数据集上进一步训练LLM,以便模型能够捕捉到与推荐任务相关的特定模式和特征。以下是对“在训练期间调整LLM的参数”的详细介绍。
微调LLM的必要性
LLM在预训练阶段学习了大量的语言知识和模式,但这些知识可能并不完全适用于特定的推荐任务。因此,需要对LLM进行微调,以适应推荐系统的独特需求。微调可以使LLM更好地理解用户的行为、偏好和反馈,从而提高推荐的准确性和相关性。
微调策略
微调LLM时可以采取不同的策略,这些策略可以根据推荐系统的需求、可用数据量和计算资源进行选择。
- 全参数微调是指在推荐系统的数据集上对LLM的所有参数进行训练。这种方法可以使LLM完全适应推荐任务,但通常需要大量的标注数据和计算资源。全参数微调适用于数据量充足且计算资源允许的情况。
- 参数高效微调旨在减少微调过程中的计算成本。这可以通过只更新LLM中的一小部分参数来实现,例如使用LoRA(Low-Rank Adaptation)技术。这种方法可以在保持模型性能的同时,显著减少训练成本和时间。
微调过程
微调LLM的过程通常包括以下几个步骤:
- 数据准备:收集和准备适合推荐任务的数据集,这可能包括用户行为数据、评分数据、用户和项目的文本描述等。
- 目标定义:明确微调的目标,例如提高点击率、优化长期用户留存或增强推荐的多样性。
- 模型选择:选择合适的LLM作为基础模型,这可能是像GPT、BERT或T5这样的预训练模型。
- 微调训练:在推荐任务的数据集上训练LLM。这可能涉及到调整学习率、批次大小和其他超参数。
- 评估和迭代:使用验证集评估微调后的模型性能,并根据结果进行迭代优化。
微调的挑战
微调LLM时可能会遇到一些挑战,需要采取相应的策略来解决。
- 数据稀缺
对于某些推荐任务,可能难以获得大量的标注数据。在这种情况下,可以采用数据增强技术,如生成合成数据或使用迁移学习策略。
- 过拟合风险
微调可能会导致模型过拟合,特别是在数据量有限的情况下。为了防止过拟合,可以采用正则化技术,如dropout或权重衰减。
- 计算资源限制
全参数微调可能需要大量的计算资源。为了解决这个问题,可以采用参数高效的微调方法,或者使用更高效的模型架构。
微调的应用
微调LLM可以应用于推荐系统的多个方面,包括但不限于:
- 个性化推荐:通过微调LLM来捕捉用户的个人偏好,提供个性化的推荐。
- 上下文感知推荐:利用LLM的上下文理解能力,根据用户的当前状态和历史行为提供推荐。
- 多模态推荐:结合用户的文本、图像和视频数据,提供更丰富的推荐体验。
结论
在训练期间调整LLM的参数是提升推荐系统性能的关键步骤。通过微调,LLM可以更好地适应推荐任务的独特需求,提供更准确和个性化的推荐结果。尽管存在数据稀缺、过拟合风险和计算资源限制等挑战,但通过采取合适的策略和方法,可以有效解决这些问题。随着LLM技术的不断进步,未来的推荐系统将能够更加智能地处理用户交互,提供更加丰富和多样化的推荐体验。
4.2 在推理阶段涉及传统推荐模型
在推荐系统的推理阶段涉及传统推荐模型(CRM)是一种将大型语言模型(LLM)与已有推荐系统框架相结合的方法。这种方法旨在利用LLM的强大自然语言处理能力和CRM在处理用户行为数据、优化推荐性能方面的成熟技术。以下是对“在推理阶段涉及传统推荐模型”的详细介绍。
推理阶段的重要性
推理阶段是推荐系统中生成最终推荐列表的关键环节。在这个阶段,系统根据用户的历史行为、偏好以及其他相关信息来评估用户对候选项目的偏好程度,并据此进行排序。传统的推荐模型,如协同过滤、基于内容的推荐和混合推荐系统,已经在这一阶段取得了显著的成功。然而,随着用户需求的多样化和个性化,传统的推荐模型面临着一些挑战,如冷启动问题、数据稀疏性和推荐多样性不足等。
传统推荐模型的角色
传统推荐模型在推理阶段的角色通常包括以下几个方面:
- 用户行为建模:CRM能够通过分析用户的历史行为数据来学习用户的兴趣和偏好。
- 项目特征提取:CRM可以提取项目的关键特征,如类别、标签和描述,以帮助理解项目内容。
- 推荐生成:CRM根据用户模型和项目特征,使用各种算法生成推荐列表。
- 性能优化:CRM通过调整算法参数和使用不同的优化技术来提高推荐的准确性和相关性。
LLM在推理阶段的融合
将LLM融入推理阶段,可以增强传统推荐模型的能力,特别是在处理自然语言查询、提供解释性推荐和增强个性化体验方面。以下是几种融合LLM和CRM的方法:
- 特征增强:LLM可以生成额外的特征,如项目的描述性文本或用户的查询意图,这些特征可以被CRM用作输入,以提高推荐的准确性。
- 推荐解释:LLM可以生成关于推荐决策的自然语言解释,这些解释可以帮助用户理解为什么被推荐了某些项目,从而提高推荐的透明度和用户的信任度。
- 交互式推荐:LLM可以作为一个交互式组件,与用户进行自然语言对话,收集用户的反馈和偏好,并将这些信息传递给CRM以进行实时推荐调整。
- 多模态推荐:LLM可以处理多模态输入,如文本、图像和音频,结合CRM的推荐结果,提供更丰富的推荐体验。
面临的挑战
在推理阶段融合LLM和CRM面临着一系列挑战:
- 模型集成:如何有效地将LLM的输出集成到CRM中,同时保持推荐的准确性和效率,是一个关键问题。
- 计算资源:LLM通常需要大量的计算资源,特别是在处理大规模数据集时。因此,需要找到方法来优化LLM的使用,以适应实际的推荐系统环境。
- 隐私和安全性:在使用LLM处理用户数据时,需要确保遵守隐私和数据保护法规,保护用户的敏感信息不被泄露。
- 可解释性和透明度:尽管LLM可以生成解释性文本,但这些解释需要足够清晰和准确,以便用户能够理解和信任推荐决策。
结论
在推理阶段涉及传统推荐模型是一种有效的方法,可以结合LLM和CRM的优势,提供更准确、更个性化、更可解释的推荐结果。通过特征增强、推荐解释、交互式推荐和多模态推荐,LLM可以显著提升推荐系统的性能和用户体验。尽管存在一些挑战,但随着技术的不断进步和优化,LLM在推理阶段的应用将变得更加广泛和成熟。未来的推荐系统将能够更加智能地处理用户交互,提供更加丰富和多样化的推荐体验。
4.3 讨论
我们首先总结了在适配LLM到RS时注入协同知识的必要性,然后总结了基于“HOW”问题的整体发展路径,并可能的未来方向。接下来,我们讨论了推荐性能与适配LLM的大小之间的关系。最后,我们讨论了有关LLM硬样本重排的有趣特性。
4.3.1 需要协同知识
从图4中我们可以观察到,第3象限的研究工作即使采用了大型模型(例如ChatGPT或GPT4),也表现出明显的性能界限,尽管它们装备了先进的技术,如用户行为检索和工具使用。这表明推荐系统是一个高度专业化的领域,需要大量的域内协同知识。LLM无法从其通用预训练语料库中有效学习这些知识。因此,在适配LLM到RS时,我们必须涉及域内协同知识以获得更好的性能,通常有两种方法实现这一目标(对应于第1、2、4象限):
- 在训练阶段调整LLM,从数据角度注入协同知识。
- 在推理阶段引入CRM,从模型角度注入协同知识。
这两种方法都强调了在适配LLM到RS时注入域内协同知识的重要性。
基于上述见解,如图5所示,我们根据四象限分类法绘制了关于适配LLM到RS的“HOW”问题的整体发展趋势。从2021年初开始,研究人员通常倾向于结合小规模LM和CRM进行联合优化以进行推荐(即第1象限)。然后,在2023年初,一些研究开始尝试在没有CRM帮助的情况下引入冻结的LLM进行推荐(即第3象限),其劣性能表明了协同知识的必要性。为此,提出了两种主要解决方案,通过引入CRM(即第2象限)或调整LLM(即第4象限)进行域内协同知识注入。接下来,随着我们发现适配LLM到RS的黄金原则(即注入域内协同知识),发展路径进一步回到第1象限,我们旨在联合优化LLM和CRM以获得卓越的推荐性能。最后,在如何适配LLM到RS方面,可能的未来方向可能在于更好地结合来自推荐系统的协同知识与LLM展现的通用语义知识和紧急能力。例如,赋予基于代理的LLM外部工具,以便更彻底地访问推荐数据,以及实时从搜索引擎获取网络信息。
4.3.2 更大的模型总是更好的吗?
通过从数据角度或模型角度注入协同知识,第1、2和4象限的研究工作可以实现令人满意的推荐性能,与基于注意力的基线相比,除了少数情况外。在这些研究中,我们可以观察到适配的LLM大小逐渐增加,但统一基准的细粒度交叉比较仍然空缺。因此,很难直接得出更大的LLM尺寸肯定能为推荐系统带来更好结果的结论。这引出了一个开放的问题:更大的语言模型对推荐系统总是更好吗?或者在与协同知识结合的情况下,使用小规模语言模型作为轻量级替代品是否足够好?
4.3.3 LLM擅长重排硬样本
尽管LLM通常因为在零/少次学习中涉及的域内协同知识较少而表现不佳,但研究人员发现,像ChatGPT这样的大型语言模型更有可能成为硬样本的优良重排器。他们引入了先过滤后重排的范式,利用传统推荐系统(例如,匹配或预排名阶段)的预排名功能来预过滤那些容易的负面项目,从而为LLM生成一组包含更难样本的候选集进行重排。通过这种方式,尤其是在ChatGPT类API的情况下,LLM的列表式重排性能可以得到提升。这一发现对于工业应用具有指导意义,我们可以要求LLM仅处理硬样本,而将其他样本留给轻量级模型以节省计算成本。
4.4 解决方案
为了解决如何将大型语言模型(LLM)有效整合到推荐系统(RS)中的问题,研究者们提出了多种策略,旨在充分利用LLM的开放域知识和推理能力,同时保持传统推荐模型(CRM)的高效性和准确性。以下是对这些解决方案的详细介绍:
1. 模型融合(Model Fusion)
模型融合策略的核心思想是结合LLM和CRM的优势,以提高推荐系统的整体性能。通过这种方法,LLM可以用于理解和生成丰富的自然语言描述,而CRM则专注于处理用户行为数据和物品特征。融合的方式多种多样,可以是简单的加权融合,即将LLM和CRM的输出按一定比例结合起来;也可以是特征级联,即将两者的特征向量进行拼接或交互;或者是混合模型,通过一个复杂的网络结构同时学习两种模型的优势。这种方法的关键在于找到最佳的融合策略,以便在不同的推荐场景中取得最佳效果。
2. 多任务学习(Multi-Task Learning)
多任务学习允许LLM同时学习多个相关任务,例如用户评分预测、推荐解释生成和物品排序。通过这种方式,LLM不仅能够预测用户对物品的评分,还能生成解释性的文本来说明为什么推荐某个物品。这样做的好处是可以让LLM更好地理解推荐任务的整体上下文,从而提高推荐的准确性和透明度。此外,多任务学习还可以提高数据的利用效率,因为不同任务之间的共享表示可以相互促进学习。
3. 端到端训练(End-to-End Training)
端到端训练方法指的是直接在推荐任务上训练LLM,而不需要单独的预训练阶段。这种方法可以减少训练时间,并且使得模型能够更快地适应特定的推荐场景。端到端训练通常涉及到设计一个能够直接从原始用户行为数据和物品描述文本中学习的神经网络架构。这样的网络可以直接优化推荐任务的性能指标,如点击率或准确率,而不需要进行复杂的特征工程或模型调整。
4. 交互式学习(Interactive Learning)
交互式学习策略利用LLM的自然语言处理能力,使其能够在与用户的实时交互中进行学习。在这种设置下,LLM可以根据用户的反馈和行为动态调整推荐策略。例如,如果用户对某个推荐表示不满意,LLM可以立即解释原因并提供替代选项。这种学习方法不仅可以提高推荐的个性化程度,还能增加用户的参与度和满意度。此外,通过用户的实时反馈,LLM可以不断优化其推荐算法,从而实现更加精准和个性化的推荐。
5 面临的挑战
适应大型语言模型(LLM)到推荐系统(RS)的过程中,研究者和实践者面临多种挑战。这些挑战主要源于推荐系统的独特特性和实际应用场景的需求。以下是详细介绍的挑战:
1. 训练效率(Training Efficiency)
随着推荐系统越来越依赖于大数据和实时更新的模型,训练效率成为了一个关键问题。适应LLM到RS需要大量的计算资源和时间,尤其是当涉及到数十亿级别的训练样本时。此外,频繁的模型更新也对训练效率提出了更高要求。如何在保证模型性能的同时,减少训练时间和资源消耗,是当前面临的一个主要挑战。
2. 推理延迟(Inference Latency)
在线推荐系统通常是实时服务,对时间非常敏感。所有的推荐阶段,如匹配、排序和重排序,都需要在几十毫秒内完成。引入LLM到推理阶段会增加延迟,因为LLM的推理时间相对较长。预计算和缓存LLM的输出或中间表示是一种常见的策略,用于在保持低延迟的同时利用LLM进行推荐。
3. 长文本建模(In-Domain Long Text Modeling)
推荐系统通常需要处理用户历史、候选集和特征等长文本输入,这些长文本输入可能导致内存效率问题,甚至超出LLM的上下文窗口限制。如何有效地处理这些长文本输入,以及如何设计提示模板和调整LLM以更好地理解推荐数据,是另一个挑战。
4. ID索引和建模(ID Indexing & Modeling)
推荐系统中存在纯ID特征,这些特征不包含语义信息。直接将这些ID特征包含在提示文本中可能会导致LLM无法有效理解。研究者需要找到方法来决定是否保留这些ID特征,以及如何设计ID索引和建模策略,以便LLM能够利用这些信息提高推荐性能。
5. 公平性(Fairness)
LLM可能会在推荐系统中引入不公平的偏见,例如,基于用户名称隐式推断性别、种族或国籍,从而导致对某些群体的歧视。如何确保推荐系统在个体和群体层面上公平对待用户,是一个重要的研究课题。
6. 其他潜在风险(Other Potential Risks)
LLM可能会产生幻觉(hallucination),即生成看似合理但实际上错误或缺乏事实依据的文本,这可能会误导推荐系统。此外,数据隐私问题也非常重要,因为LLM在预训练和微调过程中可能会接触到敏感信息。解释性也是LLM面临的一个挑战,因为尽管LLM可以帮助生成推荐解释,但LLM本身的工作原理对用户来说可能是不透明的。
综上所述,适应LLM到推荐系统是一个复杂的过程,需要解决效率、效果和伦理等多个方面的挑战。未来的研究需要在这些领域取得进展,以实现LLM在推荐系统中的广泛应用和成功。
6 总结与未来展望
总的来说,大型语言模型(LLM)因其广泛的开放世界知识、逻辑和常识推理能力以及对人类文化和社会的理解而展现出令人印象深刻的类人能力。因此,LLM的出现为LLM增强的推荐系统开辟了一个充满前景的研究方向。本调查提出了一个系统性的观点,从整个工业推荐系统的流程角度来看待LLM增强的推荐。我们全面总结了最新的研究进展,从两个方面探讨了如何将大型语言模型适配到推荐系统中:在哪里以及如何适配LLM。
- 对于“WHERE”的问题,我们分析了LLM在推荐系统的不同阶段可以扮演的角色,即特征工程、特征编码器、评分/排名函数、用户交互和流程控制器。
- 对于“HOW”的问题,我们分析了训练和推理策略,得出了两个正交的分类标准,即是否在训练期间调整LLM,以及是否在推理过程中涉及传统推荐模型(CRM)。
我们还为每个分类视角提供了详细的讨论和有益的发展路径。至于未来展望,除了第5节已经强调的三个方面(即效率、效果和伦理)之外,我们还想进一步表达我们对于结合大型语言模型和推荐系统未来发展的希望愿景:
- 迫切需要一个统一的公共基准,以提供合理和令人信服的评估协议,因为(1)现有作品之间的细粒度交叉比较仍然空缺,而且(2)重现与LLM结合的推荐模型的实验结果是非常昂贵和困难的。虽然存在一些LLM增强的RS基准(例如,LLMRec、OpenP5),但它们通常集中在LLM增强RS的某个特定方面。例如,OpenP5和LLMRec仅关注使用LLM作为评分/排名函数的生成推荐范式,而不涉及CRM。因此,对不同推荐系统流程阶段(例如,特征工程、特征编码器)的LLM适配进行统一比较仍然有待探索。
- 为推荐领域定制的大型基础模型,它可以接管整个推荐流程的控制。目前,涉及将LLM纳入流程控制器阶段的研究工作通常采用冻结的通用大型基础模型,如ChatGPT和GPT4,来连接不同的阶段。通过构建领域内的指令数据,甚至为协作知识定制模型结构,我们有希望获得一个专门为推荐领域设计的大基础模型,从而实现推荐系统自动化的新水平。