《强化学习与大语言模型:算法前沿和产业落地.pdf》由会员分享,可在线阅读,更多相关《强化学习与大语言模型:算法前沿和产业落地.pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、强化学习与大语言模型:算法前沿和产业落地曹宇 阿里巴巴集团本分享所有内容仅代表个人观点,不代表雇主强化学习的一个最简单介绍 通过一个奖励函数或者模型,对于算法设计人员所希望希望其表现的行为进行奖励,对于不不希望希望的进行惩罚 相比于我们所熟知的预训练和SFT RL 算法大多采用模型自身输出的内容作为训练的依据 通过奖励模型或者奖励函数对于该内容进行评价 理论上任何的信号(人类的偏好,做题的正确,agent执行的结果等)都可以作为奖励信号的一部分LLMReward ModelFunctionsLLMxy产业界比较奏效的RL应用领域 RL 的学习方式本质上是根据奖励优化LLM的概率分布,我们观察到
2、了在这些领域中奏效 人类反馈的强化学习(RLHF)基于规则及反馈的强化学习(RLAIF)基于明确可验证任务(RL)端到端的强化学习(e2e RL)xyrulemodelfeedbackverifierRM systemLLMxy第一代ChatBot编程王者全民深度思考Agent领域萌芽当前RL应用的主要焦点 RL e2e RLRL e2e RL 实现智能水平的提升 在可验证领域持续增强:Math Code Agent 不断拉长有效决策时长提升决策精度 完成从Reasoner向Agent技术的跃迁 垂直领域冲击AGI RLAIFRLAIF 增强模型的编程能力 提升指令遵循的准度 注入用户通用的偏
3、好 RLHFRLHF 持续提升模型安全性 提升模型的文采风格 增强隐含意图理解力为什么 RL 未来对于 LM 依然重要 Human Data 向 Experience(AI data)的转变 Pre-train 速率放缓是较为明确的趋势 数据成为了主要的瓶颈 数据未来并不会以人类为主 最简单的一个例子:合成数据 模型产生数据 判断产生数据的好坏 使用该数据好的部分进行训练+RL 可以使用其中“坏”的部分产业应用落地挑战 infra本身是根本 数据是驱动的燃料 算法进步也不容忽视 infra infra 数据数据 算法算法 RL infra 的强需求 在RL的训练过程中,决定算法迭代效率至少有以
4、下三个方面 推理效率推理效率:长文本的推理效率,多模态推理效率 验证效率验证效率:异构系统的验证效率,工具调用效率 训练效率训练效率:大模型本身的训练效率 这几乎涵盖了当前大模型系统工程的方方面面,其中最弱的短板决定系统短板OpenRLHF 使用Ray调度的vLLM+DeepSpeed RL 数据流 6.3K stars Ant Ray Flow Insight VeRL 字节跳动开源 6.9K stars AReal 蚂蚁、清华开源 1.1K stars数据获取的维度 从人类数据向经验数据的转变 从单轮交互,向agent交互转变 从入门难度数据向专业难度数据转变1.单一领域的 RL 奏效,但
5、往往无法抵抗通用的scaling2.人类数据固然宝贵,但依靠人类的标注无法获得足够多的数据3.模型直接和环境进行交互的数据,如agent类数据未来的价值持续提升人类数据 交互数据 专业难度算法本身的复杂度 Generation Phase 生产样本,在线学习 on-policy,off-policy Reward/Verify Phase 获得奖励,环境建模 code execution,browsing Training Phase 更新模型,迭代策略 PPO,GRPO,etc.PPOGRPORF+ReMaxxRM VerifierCodeRM RulesBrowservLLMCodeSGLangBrowserrrryyy几万到几百万LLMRL 算法能力的挑战 Alignment Faking CoT 言不由衷 Reward Hacking 个性化的瓶颈总结 RL 在大模型的发展过程扮演了哪些应用价值 RL 在大模型的现在及未来中主要挑战是什么 RL 作为一项和基座走的很近的技术,未来会逐渐向应用端发力