1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit张张俊俊林林 新新浪浪微微博博首首席席科科学学家家及及A AI I研研发发部部负负责责人人中国中文信息学会理事,中科院软件所博士。目前担任新浪微博首席科学家及AI研发部负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍这就是搜索引擎:核心技术详解、大数据日知录:架构与算法作者。演演讲讲主主题题:从从D De ee ep pS Se
2、 ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会从从D De ee ep ps se ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来张俊林ML-SummitML-Summit目目录录DeepSeek R1介绍R1复现得到的经验深度思考模型的未来ML-SummitML-SummitML-SummitML-SummitDS不仅是中国大模型在全球舞台上的一次重要突破,更是中国AI技术实力的体现。DeepSeek R1复现开源了OpenAI o1o3的深
3、度思考能力,代表了新型强化学习Scaling Law,引领大模型开启快速能力提升第二增长曲线DeepSeek 时刻APP 7天用户过亿,创造历史最快记录APP下载量很快冲到各国第一黑神话.悟空制作人冯骥称之为国运级创新ML-SummitML-Summit有趣的问题:深度思考模型为何会出现Aha Moment?DeepSeek R1的Aha Moment时刻DeepSeek ZeroAha MomentML-SummitML-Summit有明确Reward的场景(数学&Code),使用Rule-Based RM要明显好于PRM or ORM(Reward Hacking)DeepSeek R1强
4、化学习方法:GRPO(1/2)Rule-Based Reward ModelReward HackingML-SummitML-SummitGRPO和Kimi K1.5强化学习基本思想是类似的DeepSeek R1强化学习方法:GRPO(2/2)GRPO的基本思想ML-SummitML-Summit阶段1:提升深度思考训练数据质量+阶段2:SFT+RL标准Post-TrainingDeepSeek R1的两阶段训练过程DeepSeek R1的两阶段训练过程ML-SummitML-SummitML-SummitML-Summit多项复现证明:如果深度思考数据质量够高,是不需要太大数据量的经验:深
5、度思考的数据质量比数据数量更重要(1/2)S1Less is More(LIMO)ML-SummitML-Summit数据质量的含义是什么?问题多样性&问题难度&Trace质量经验:深度思考的数据质量比数据数量更重要(2/2)问题多样性问题难度Trace质量ML-SummitML-Summit从Test Time Scaling的角度来看,蒸馏是次优结果,不如SFT+RL可扩展性强经验:只有蒸馏不够,强化学习是必要的RLSFTFrom:Scaling Test-Time Compute Without Verification or RL is SuboptimalML-SummitML-Su
6、mmitSFT阶段的作用:消除混合语言问题(DS)/使RL效果更好经验:SFT阶段不必要但是重要SFT能提高RL效果From:Demystifying Long Chain-of-Thought Reasoning in LLMsML-SummitML-Summit多项复现证明:采用由易到难的课程学习不仅有助于增加RL效果,也能增强训练稳定性经验:课程学习有助于提升RL的效果课程学习提升模型效果From:KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS ML-SummitML-Summit多项复现证明: