报告预览

张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf

编号：631133

PDF 33页 20.60MB 下载积分：VIP专享

下载报告请您先登录！

张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit张张俊俊林林新新浪浪微微博博首首席席科科学学家家及及A AI I研研发发部部负负责责人人中国中文信息学会理事，中科院软件所博士。目前担任新浪微博首席科学家及AI研发部负责人，此前在阿里巴巴担任资深技术专家，负责新技术团队。技术书籍这就是搜索引擎：核心技术详解、大数据日知录：架构与算法作者。演演讲讲主主题题：从从D De ee ep pS Se

2、 ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会从从D De ee ep ps se ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来张俊林ML-SummitML-Summit目目录录DeepSeek R1介绍R1复现得到的经验深度思考模型的未来ML-SummitML-SummitML-SummitML-SummitDS不仅是中国大模型在全球舞台上的一次重要突破，更是中国AI技术实力的体现。DeepSeek R1复现开源了OpenAI o1o3的深

3、度思考能力，代表了新型强化学习Scaling Law，引领大模型开启快速能力提升第二增长曲线DeepSeek 时刻APP 7天用户过亿，创造历史最快记录APP下载量很快冲到各国第一黑神话.悟空制作人冯骥称之为国运级创新ML-SummitML-Summit有趣的问题：深度思考模型为何会出现Aha Moment?DeepSeek R1的Aha Moment时刻DeepSeek ZeroAha MomentML-SummitML-Summit有明确Reward的场景(数学&Code)，使用Rule-Based RM要明显好于PRM or ORM(Reward Hacking)DeepSeek R1强

4、化学习方法：GRPO（1/2）Rule-Based Reward ModelReward HackingML-SummitML-SummitGRPO和Kimi K1.5强化学习基本思想是类似的DeepSeek R1强化学习方法：GRPO（2/2）GRPO的基本思想ML-SummitML-Summit阶段1:提升深度思考训练数据质量+阶段2:SFT+RL标准Post-TrainingDeepSeek R1的两阶段训练过程DeepSeek R1的两阶段训练过程ML-SummitML-SummitML-SummitML-Summit多项复现证明：如果深度思考数据质量够高，是不需要太大数据量的经验：深

5、度思考的数据质量比数据数量更重要（1/2）S1Less is More(LIMO)ML-SummitML-Summit数据质量的含义是什么？问题多样性&问题难度&Trace质量经验：深度思考的数据质量比数据数量更重要（2/2）问题多样性问题难度Trace质量ML-SummitML-Summit从Test Time Scaling的角度来看，蒸馏是次优结果，不如SFT+RL可扩展性强经验：只有蒸馏不够，强化学习是必要的RLSFTFrom:Scaling Test-Time Compute Without Verification or RL is SuboptimalML-SummitML-Su

6、mmitSFT阶段的作用：消除混合语言问题（DS）/使RL效果更好经验：SFT阶段不必要但是重要SFT能提高RL效果From:Demystifying Long Chain-of-Thought Reasoning in LLMsML-SummitML-Summit多项复现证明：采用由易到难的课程学习不仅有助于增加RL效果，也能增强训练稳定性经验：课程学习有助于提升RL的效果课程学习提升模型效果From:KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS ML-SummitML-Summit多项复现证明：

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf）为本站（哆哆）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。