报告预览

邱凯-Logic-RL：通过基于规则的强化学习释放大模型推理能力.pdf

编号：631174

PDF 31页 18.19MB 下载积分：VIP专享

下载报告请您先登录！

邱凯-Logic-RL：通过基于规则的强化学习释放大模型推理能力.pdf

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit邱邱凯凯微微软软亚亚洲洲研研究究院院高高级级研研究究员员，L Lo og gi ic c-R RL L贡贡献献者者微软亚洲研究院高级研究员，毕业于中国科学院大学。研究方向包括图像与视频生成，多模态大模型的后训练，大语言模型的强化学习等。有多篇文章发表于CVPR,ICCV，AAAI，ACM Multimedia，Pattern Recognit

2、ion等会议和期刊。相关研究成果已用于微软的多个产品，包括Bing Ads，Windows Copilot等。作为CVPR,ICCV,ECCV,ACM MM,AAAI,IJCV等会议和期刊的审稿人。相关技术获得中国和美国专利。演演讲讲主主题题：L Lo og gi ic c-R RL L：通通过过基基于于规规则则的的强强化化学学习习释释放放大大模模型型推推理理能能力力ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会L Lo og gi ic c-R RL L：通通过过规规则则强强化化学学习习释释放放大大模模型型推推理理能能力力微软亚洲研究院邱凯ML-Summ

3、itML-Summit目目录录背景与动机数据与算法实验与分析总结与展望ML-SummitML-SummitML-SummitML-Summit背景研究动机如何在大语言模型上通过强化学习提升推理能力？小模型/小数据能否涌现出推理能力？缺乏对 RL 中推理行为演化过程的细致分析。研究目标设计一个可复现的、可控的 RL 框架，用于研究 LLM 的推理能力。ML-SummitML-SummitML-SummitML-Summit数据与算法Knights and Knaves(K&K)数据集程序生成，可大规模产生数据。难度可控，可精心设计难度等级。易于验证，有且仅有唯一正确答案。ML-Summi

4、tML-Summit数据与算法强化学习算法 PPO GRPO Reinforce+ML-SummitML-Summit数据与算法基于规则的奖励格式奖励答案奖励ML-SummitML-Summit数据与算法模型选择Qwen2.5-7B-BaseQwen2.5-7B-Instruct-1MQwen2.5-7B-Math训练细节训练3600步固定学习率 4e-7温度 0.7数据量5千条K&K数据训练难度包括37人ML-SummitML-SummitML-SummitML-Summit实验与分析随着强化学习训练的进行，K&K测试集上准确率逐渐提升。强化学习训练中，模型逐渐延长推理过程，从几百 toke

5、n 增长至几千 token。强化学习增强了模型的泛化能力，在数学测试集AIME和AMC上性能提升。ML-SummitML-Summit实验与分析大语言模型表现较差，随着难度增加，准确率逐渐接近0。推理模型（OpenAI O3,DeepSeek R1,Logic-RL）表现较好，随着难度增加准确率降低。Logic-RL训练只使用37人数据，但在分布外测试集（8人）上，仍然有较高准确率，有一定泛化能力。ML-SummitML-Summit实验与分析模型在强化学习过程中自发产生了探索，回溯，反思，验证等复杂推理行为。这些词汇在K&K训练集中并不存在，而来自于强化学习激发出模型自身的推理能力。ML-S

6、ummitML-Summit实验与分析模型在强化学习过程中自发出现语言混杂现象。ML-SummitML-Summit实验与分析某些“思考”词汇能增加模型得分，但另一些可能会降低。语言混杂会降低模型得分。ML-SummitML-Summit实验与分析“思考”词汇出现频率大致呈增长趋势。“Aha Moment”并不是突然出现。ML-SummitML-Summit实验与分析PPO,GRPO,Reinforce+三种强化学习算法都能得到较好的结果。PPO速度较慢，GRPO和Reinforce+速度较快。PPO和Reinfo

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（邱凯-Logic-RL：通过基于规则的强化学习释放大模型推理能力.pdf）为本站（哆哆）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。