《华为:推荐系统如何从大语言模型中取长补短:从应用视角出发(2023)(30页).pdf》由会员分享,可在线阅读,更多相关《华为:推荐系统如何从大语言模型中取长补短:从应用视角出发(2023)(30页).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023推荐系统如何从大语言模型中取长补短:从应用视角出发唐睿明-华为诺亚方舟实验室01背景和问题推荐模型如何从大语言模型种取长补短,从而提升推荐性能,优化用户体验?02如何运用大语言模型(How)总结大语言模型用于推荐系统的两个关键趋势,并分别介绍两个技术方案03何处运用大语言模型(Where)大语言模型可以用于特征工程、特征编码、打分排序、流程控制04挑战和展望从应用视角出发,总结大语言模型用于推荐系统的挑战,并展望未来趋势目录CONTENTDataFunSummit#202301背景和问题背景和问题传统的推荐系统模型相对较小,时间空间开销低可以充分利用协同信号
2、只能利用数据集内的知识缺乏语义信息和深度意图推理大语言模型引入外部开放世界知识,语义信号丰富具备跨域推荐能力,适合冷启动场景协同信号缺失计算复杂度高,难以处理海量样本核心研究问题推荐模型如何从大模型中取长补短,从而提升推荐性能,优化用户体验?从应用角度出发,我们进一步将该问题拆解为何处运用大语言模型(WHERE to adapt)如何运用大语言模型(HOW to adapt)LLM+RS:核心研究问题拆解Lin J,Dai X,Xi Y,et al.How Can Recommender Systems Benefit from Large Language Models:A Survey.a
3、rXiv preprint,2023.DataFunSummit#202302何处运用大语言模型何处运用大语言模型(WHERE to adapt LLM)基于深度学习的推荐系统流程和不同阶段LLM应用的代表性工作 根据现代基于深度学习的推荐系统的流程,我们抽象出以下五个环节:数据采集阶段:线上收集用户行为和记录,得到原始数据(raw data)特征工程阶段:对原始数据进行筛选、加工、增强,得到可供下游深度模型使用的结构化数据(structured data)特征编码阶段:对结构化数据进行编码,得到对应的稠密向量表示(neural embeddings)打分排序阶段:对候选物品进行打分排序,得到
4、要呈现给用户的排序列表(recommended items)推荐流程控制:作为中央控制器,把控推荐系统的整体流程。也可以细化到对排序阶段的召回、粗排、精排的控制Lin J,Dai X,Xi Y,et al.How Can Recommender Systems Benefit from Large Language Models:A Survey.arXiv preprint,2023.特征工程 利用大语言模型的外部通用知识和逻辑推理能力,进行特征增强1.丰富用户画像 2.理解推荐内容 3.样本扩充大语言模型在特征工程中的应用特征工程 GENRE 在新闻推荐的场景下,利用LLM进行新闻摘要,用
5、户画像和个性化新闻内容生成Liu Q,Chen N,Sakai T,et al.A First Look at LLM-Powered Generative News Recommendation.arXiv preprint,2023.特征编码 利用LLM的通用语义信息丰富推荐特征表示1.增强文本特征(用户表征、物品表征)表示 2.改善基于ID的特征表示的跨场景迁移能力大语言模型在特征编码中的应用特征编码 U-BERT 用户表征:用语言模型对用户评论内容编码,增强用户的个性化表征Qiu Z,Wu X,Gao J,et al.U-BERT:Pre-training user represent
6、ations for improved recommendation.AAAI,2021.特征编码 UniSRec 物品表征:通过对物品标题/描述进行编码,来实现跨域推荐的目标Hou Y,Mu S,Zhao W X,et al.Towards universal sequence representation learning for recommender systems.KDD,2022.打分/排序 打分/排序是推荐系统的核心任务,目标是得到和用户偏好相符的物品(列表)根据如何得到最终排序列表的形式,我们将大语言模型应用于打分/排序的工作分成以下三种 物品评分任务(Item Scoring
7、 Task)大语言模型对候选物品逐一评分,最后根据分数排序得到最终的排序列表 物品生成任务(Item Generation Task)通过生成式的方式生成下一个物品的ID,或者直接生成排序列表 混合任务(Hybrid Task)大语言模型天然地适合多任务场景,因此很多工作会利用大语言模型来实现多个推荐任务,其中包括评分任务和生成任务物品评分任务(Item Scoring Task)探究语言模型分别在零样本(Zero-Shot),少样本(Few-Shot)和微调场景下的评分预测的能力 零样本和少样本Kang W C,Ni J,Mehta N,et al.Do LLMs Understand Us
8、er Preferences?Evaluating LLMs On User Rating Prediction.arXiv preprint,2023.物品评分任务(Item Scoring Task)探究语言模型分别在零样本(Zero-Shot),少样本(Few-Shot)和微调场景下的评分预测的能力 微调语言模型Kang W C,Ni J,Mehta N,et al.Do LLMs Understand User Preferences?Evaluating LLMs On User Rating Prediction.arXiv preprint,2023.物品生成任务(Item Ge
9、neration Task)PALR 利用用户历史交互得到用户画像,然后基于用户画像、历史交互和提前过滤得到的候选集信息生成推荐列表用户画像历史交互候选集Yang F,Chen Z,Jiang Z,et al.PALR:Personalization Aware LLMs for Recommendation.arXiv preprint,2023.混合任务(Hybrid Task)P5 用一个统一的大语言模型在不同的推荐任务上进行预训练,针对不同任务使用不同推荐模版Geng S,Liu S,Fu Z,et al.Recommendation as language processing(rl
10、p):A unified pretrain,personalized prompt&predict paradigm(p5).RecSys.2022.流程控制 RecLLM 提出了一种使用LLM来集成推荐系统流程各模块(检索、排序、用户画像、用户模拟)的一个对话式推荐系统路线图Friedman L,Ahuja S,Allen D,et al.Leveraging Large Language Models in Conversational Recommender Systems.arXiv preprint,2023.DataFunSummit#202303如何运用大语言模型如何运用大语言模
11、型(HOW to adapt LLM)大语言模型在推荐系统应用的四象限图及代表性工作微调LLM,引入CRM不微调LLM,引入CRM不微调LLM,不引入CRM微调LLM,不引入CRM两个趋势模型:通过引入传统推荐模型(CRM)为语言模型注入协同信号。数据:通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。从训练和推理两个阶段出发,我们根据以下的两个维度将现有工作分为四个象限:在训练阶段,大语言模型是否需要微调。这里微调的定义包含了全量微调和参数高效微调。在推理阶段,是否需要引入传统推荐模型(Conventional Recommendation Model,CRM)。其中,如果CRM
12、知识作为一个预先过滤candidate的作用,则不被考虑在内。Lin J,Dai X,Xi Y,et al.How Can Recommender Systems Benefit from Large Language Models:A Survey.arXiv preprint,2023.利用大语言模型开放知识辅助推荐的通用推荐框架KAR大语言模型在推荐系统应用的四象限图及代表性工作微调LLM,引入CRM不微调LLM,引入CRM不微调LLM,不引入CRM微调LLM,不引入CRM两个趋势模型:通过引入传统推荐模型(CRM)为语言模型注入协同信号。数据:通过引入推荐场景的数据,结合微调技术,为语
13、言模型注入协同信号。仅使用语言模型进行推荐目前效果不理想。Xi Y,Liu W,Lin J,et al.Towards Open-World Recommendation with Knowledge Augmentation from Large Language Models.arXiv preprint,2023.方法创新性有效结合大语言模型的通用世界知识与传统推荐系统的领域知识通过Factorization Prompting,有效激发大语言模型针对用户兴趣的推理和知识获取能力,缓解构成差距的问题提出混合多专家网络知识适配器,将语言模型生成的世界知识由语义空间适配至推荐空间,进行降维、
14、噪声处理的同时保存有效信息。推理复杂度与传统推荐模型一致(,)。通用性强,适配各类型工业推荐场景和任务大语言模型的构成差距问题(Compositional Gap)无法准确回答复合推理问题,但可以准确回答复合问题的各个子问题用户偏好复杂多面,世界知识混合海量,难以直接生成有效知识受因式分解的启发,将开放知识生成问题动态分解为多个关键子因素,按因素分别进行用户兴趣推理和知识提取。Xi Y,Liu W,Lin J,et al.Towards Open-World Recommendation with Knowledge Augmentation from Large Language Model
15、s.arXiv preprint,2023.技术方案知识推理和生成:基于推荐场景对于决定用户偏好,动态分解出相应的关键因素,对于用户偏好和物品外部知识分别对大语言模型提问生成相应的兴趣推理知识和物品事实知识文本知识适配:所生成的文本信息内容复杂多面(5001000 tokens),且存在幻觉问题,推荐系统无法直接理解和利用设计多专家网络进行知识提取、压缩、映射,适配至推荐空间,输出结果鲁棒。知识利用:将所生成的知识增强向量作为额外的特征域,结合原本数据特征,进行特征交互,输出最终结果。Xi Y,Liu W,Lin J,et al.Towards Open-World Recommendatio
16、n with Knowledge Augmentation from Large Language Models.arXiv preprint,2023.有益效果【通用性】在9个SOTA的推荐算法上,平均AUC显著提升1.5%(AUC 3以上的提升即为显著)【可落地性】推理复杂度与传统推荐模型相当。【有效性】相比SOTA预训练推荐模型,AUC显著提升1%以上。且用户推理知识和物品事实知识都提供显著的增强效果,二者联合使用效果更优。Xi Y,Liu W,Lin J,et al.Towards Open-World Recommendation with Knowledge Augmentatio
17、n from Large Language Models.arXiv preprint,2023.一种对齐语言模型和协同模型的框架CTRL大语言模型在推荐系统应用的四象限图及代表性工作微调LLM,引入CRM不微调LLM,引入CRM不微调LLM,不引入CRM微调LLM,不引入CRM两个趋势模型:通过引入传统推荐模型(CRM)为语言模型注入协同信号。数据:通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。仅使用语言模型进行推荐目前效果不理想。Li X,Chen B,Hou L,et al.CTRL:Connect Tabular and Language Model for CTR P
18、rediction.arXiv preprint,2023.方法创新性以混合粒度知识对齐的方式,同时建模协同信号和语义信号从数据角度进行双向知识注入,语言模型与推荐模型互相解耦可以单侧推理,推理复杂度低现有LLM4Rec的缺陷缺乏协同信号,在推荐下游任务准确率较低在线推理时延过高,难以满足工业需求Li X,Chen B,Hou L,et al.CTRL:Connect Tabular and Language Model for CTR Prediction.arXiv preprint,2023.技术方案Prompt construction:通过7个模板把表格数据转换为文本数据:用户和物品
19、特征:特征名+连接词+特征值用户历史行为序列:用户的历史类型+动作连接词+历史1|历史2|历史3采用,作为特征之间的分隔符;采用。作为用户信息和物品信息的分隔符Cross-model Knowledge Alignment:将协同模型和语言模型的知识进行对齐利用对比学习预训练融合两种模态的信息进一步利用细粒度的对比学习使信息融合更加充分Supervised Finetuning:在经过细粒度对比学习预训练之后,两种模态的信息已经进行充分融合使用监督信号使协同模型适配下游任务通过在不同的任务上微调,可以适配不同的推荐任务Li X,Chen B,Hou L,et al.CTRL:Connect T
20、abular and Language Model for CTR Prediction.arXiv preprint,2023.有益效果【推荐效果】和推荐模型和语言模型基线相比,AUC取得显著提升【推理效率】和传统的推荐模型相比,推理效率基本一致;和语言模型相比,显著减少推理时延Li X,Chen B,Hou L,et al.CTRL:Connect Tabular and Language Model for CTR Prediction.arXiv preprint,2023.DataFunSummit#202304挑战和展望工业应用场景下的挑战 训练效率 问题:显存用量过大、训练时间过
21、长 可能解决思路:1.参数高效微调(PEFT)方案 2.调整模型更新频率(e.g.长短更新周期结合)推理时延 问题:推理时延过高 可能解决思路:预存部分输出或中间结果,以空间换时间;通过蒸馏、剪枝、量化等方法,降低推理模型的真实规模;仅用于特征工程和特征编码,避免直接在线上做模型推理 推荐领域的长文本建模 问题:长用户序列、大候选集、多元特征都会导致推荐文本过长,不仅难以被大模型有效捕捉,甚至可能会超过语言模型的上下文窗口限制(Context Window Limitation)可能解决思路:通过过滤、选择、重构,提供真正简短有效的文本输入 ID特征的索引和建模 问题:纯ID类特征(e.g.用
22、户ID)天然不具备语义信息,无法被语言模型理解 可能解决思路:探索更适合语言模型的ID索引和建模策略总结和展望 缓解稀疏场景 LLM的zero-shot和few-shot能力可以用于解决冷启动和长尾问题 引入外部知识 LLM拥有大量关于Item的世界知识,对于资讯类场景这种通用知识的引入可以大大丰富Item侧的信息 改善交互体验 用户可以主动通过交互式界面自由地描述他们的需求,从而实现精准推荐 突破传统定位,重塑推荐流程LLM在推荐系统中扮演的角色逐渐突破传统定位,从简单的编码器、打分器逐渐向外延伸,在特征工程,乃至推荐流程控制都发挥重要作用 语义协同兼顾,跨域知识融合需要通过微调大语言模型(数据层面)或引入传统推荐模型(模型层面)的方式来为语言模型注入推荐的域内知识 现有的语言模型在推荐系统中的应用存在以下两个发展趋势:从应用视角出发,以推荐系统为核心,我们调研了以下两个核心问题:何处运用大语言模型(WHERE to adapt)如何运用大语言模型(HOW to adapt)总结展望