1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit邱邱凯凯 微微软软亚亚洲洲研研究究院院高高级级研研究究员员,L Lo og gi ic c-R RL L贡贡献献者者微软亚洲研究院高级研究员,毕业于中国科学院大学。研究方向包括图像与视频生成,多模态大模型的后训练,大语言模型的强化学习等。有多篇文章发表于CVPR,ICCV,AAAI,ACM Multimedia,Pattern Recognit
2、ion等会议和期刊。相关研究成果已用于微软的多个产品,包括Bing Ads,Windows Copilot等。作为CVPR,ICCV,ECCV,ACM MM,AAAI,IJCV等会议和期刊的审稿人。相关技术获得中国和美国专利。演演讲讲主主题题:L Lo og gi ic c-R RL L:通通过过基基于于规规则则的的强强化化学学习习释释放放大大模模型型推推理理能能力力ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会L Lo og gi ic c-R RL L:通通过过规规则则强强化化学学习习释释放放大大模模型型推推理理能能力力微软亚洲研究院 邱凯ML-Summ
3、itML-Summit目目录录背景与动机数据与算法实验与分析总结与展望ML-SummitML-SummitML-SummitML-Summit背景 研究动机 如何在大语言模型上通过强化学习提升推理能力?小模型/小数据能否涌现出推理能力?缺乏对 RL 中推理行为演化过程的细致分析。研究目标 设计一个可复现的、可控的 RL 框架,用于研究 LLM 的推理能力。ML-SummitML-SummitML-SummitML-Summit数据与算法Knights and Knaves(K&K)数据集 程序生成,可大规模产生数据。难度可控,可精心设计难度等级。易于验证,有且仅有唯一正确答案。ML-Summi
4、tML-Summit数据与算法强化学习算法 PPO GRPO Reinforce+ML-SummitML-Summit数据与算法基于规则的奖励格式奖励答案奖励ML-SummitML-Summit数据与算法模型选择Qwen2.5-7B-BaseQwen2.5-7B-Instruct-1MQwen2.5-7B-Math训练细节训练3600步固定学习率 4e-7温度 0.7数据量5千条K&K数据训练难度包括37人ML-SummitML-SummitML-SummitML-Summit实验与分析随着强化学习训练的进行,K&K测试集上准确率逐渐提升。强化学习训练中,模型逐渐延长推理过程,从几百 toke
5、n 增长至几千 token。强化学习增强了模型的泛化能力,在数学测试集AIME和AMC上性能提升。ML-SummitML-Summit实验与分析大语言模型表现较差,随着难度增加,准确率逐渐接近0。推理模型(OpenAI O3,DeepSeek R1,Logic-RL)表现较好,随着难度增加准确率降低。Logic-RL训练只使用37人数据,但在分布外测试集(8人)上,仍然有较高准确率,有一定泛化能力。ML-SummitML-Summit实验与分析模型在强化学习过程中自发产生了探索,回溯,反思,验证等复杂推理行为。这些词汇在K&K训练集中并不存在,而来自于强化学习激发出模型自身的推理能力。ML-S
6、ummitML-Summit实验与分析模型在强化学习过程中自发出现语言混杂现象。ML-SummitML-Summit实验与分析某些“思考”词汇能增加模型得分,但另一些可能会降低。语言混杂会降低模型得分。ML-SummitML-Summit实验与分析“思考”词汇出现频率大致呈增长趋势。“Aha Moment”并不是突然出现。ML-SummitML-Summit实验与分析PPO,GRPO,Reinforce+三种强化学习算法都能得到较好的结果。PPO速度较慢,GRPO和Reinforce+速度较快。PPO和Reinfo