张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf

编号:631133 PDF 33页 20.60MB 下载积分:VIP专享
下载报告请您先登录!

张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit张张俊俊林林 新新浪浪微微博博首首席席科科学学家家及及A AI I研研发发部部负负责责人人中国中文信息学会理事,中科院软件所博士。目前担任新浪微博首席科学家及AI研发部负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍这就是搜索引擎:核心技术详解、大数据日知录:架构与算法作者。演演讲讲主主题题:从从D De ee ep pS Se

2、 ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会从从D De ee ep ps se ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来张俊林ML-SummitML-Summit目目录录DeepSeek R1介绍R1复现得到的经验深度思考模型的未来ML-SummitML-SummitML-SummitML-SummitDS不仅是中国大模型在全球舞台上的一次重要突破,更是中国AI技术实力的体现。DeepSeek R1复现开源了OpenAI o1o3的深

3、度思考能力,代表了新型强化学习Scaling Law,引领大模型开启快速能力提升第二增长曲线DeepSeek 时刻APP 7天用户过亿,创造历史最快记录APP下载量很快冲到各国第一黑神话.悟空制作人冯骥称之为国运级创新ML-SummitML-Summit有趣的问题:深度思考模型为何会出现Aha Moment?DeepSeek R1的Aha Moment时刻DeepSeek ZeroAha MomentML-SummitML-Summit有明确Reward的场景(数学&Code),使用Rule-Based RM要明显好于PRM or ORM(Reward Hacking)DeepSeek R1强

4、化学习方法:GRPO(1/2)Rule-Based Reward ModelReward HackingML-SummitML-SummitGRPO和Kimi K1.5强化学习基本思想是类似的DeepSeek R1强化学习方法:GRPO(2/2)GRPO的基本思想ML-SummitML-Summit阶段1:提升深度思考训练数据质量+阶段2:SFT+RL标准Post-TrainingDeepSeek R1的两阶段训练过程DeepSeek R1的两阶段训练过程ML-SummitML-SummitML-SummitML-Summit多项复现证明:如果深度思考数据质量够高,是不需要太大数据量的经验:深

5、度思考的数据质量比数据数量更重要(1/2)S1Less is More(LIMO)ML-SummitML-Summit数据质量的含义是什么?问题多样性&问题难度&Trace质量经验:深度思考的数据质量比数据数量更重要(2/2)问题多样性问题难度Trace质量ML-SummitML-Summit从Test Time Scaling的角度来看,蒸馏是次优结果,不如SFT+RL可扩展性强经验:只有蒸馏不够,强化学习是必要的RLSFTFrom:Scaling Test-Time Compute Without Verification or RL is SuboptimalML-SummitML-Su

6、mmitSFT阶段的作用:消除混合语言问题(DS)/使RL效果更好经验:SFT阶段不必要但是重要SFT能提高RL效果From:Demystifying Long Chain-of-Thought Reasoning in LLMsML-SummitML-Summit多项复现证明:采用由易到难的课程学习不仅有助于增加RL效果,也能增强训练稳定性经验:课程学习有助于提升RL的效果课程学习提升模型效果From:KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS ML-SummitML-Summit多项复现证明:

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠