《北京大学:2025年DeepSeek-R1/Kimi 1.5及类强推理模型开发解读报告(76页).pdf》由会员分享,可在线阅读,更多相关《北京大学:2025年DeepSeek-R1/Kimi 1.5及类强推理模型开发解读报告(76页).pdf(76页珍藏版)》请在三个皮匠报告上搜索。
1、DeepSeekDeepSeek-R1 R1 Kimi 1.5 Kimi 1.5 及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班”主要研究方向:大语言模型对齐与可扩展监督https:/cby-pku.github.io/https:/pair- DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 Pipeline 总览 DeepSeek-V3 Base DeepSeek-R1 Zero 及 R1 细节分析 RL 算法的创新:GRPO及其技术细节 DeepSeek-R1 背后的Insights&Takeaways:
2、RL加持下的长度泛化 推理范式的涌现 DeepSeek-R1 社会及经济效益 技术对比探讨 STaR-based Methods vs.RL-based Methods 强推理路径对比(DS-R1 Kimi-1.5 o-series)蒸馏 vs.强化学习驱动:国内外现有各家技术路线对比分析及Takeaways PRM&MCTS 的作用 从文本模态到多模态 其他讨论:Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展:Align-DS-V 合成数据及Test-Time Scaling:突破数据再生产陷阱 强推理下的安全:形式化验证 Formal Verificat
3、ion 审计对齐 Deliberative Alignment 补充拓展:DeepSeek-V3 解读3DeepSeekDeepSeek-R1 R1 开创RLRL加持下强推理慢思考范式新边界 OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力?得益于纯大规模强化学习,DeepSeek-R1 具备强大
4、推理能力与长文本思考能力,继开源来备受关注。DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在:R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT);随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力;随着推理路径增长,模型表现出自我修复和启发式搜索的能力;4DeepSeekDeepSeek-R1 R1 开创RLRL加持下强推理慢思考范式新边界 得益于强大的推理能力与长文本思考能力,DeepSeek R1在复杂任务上表现卓越,成为开源领域的又一里程碑,标志着开源社区在与闭源大模型(如 OpenAI o1 系列)的竞争中迈
5、出了关键性一步。DeepSeek-R1 在数学代码任务上表现突出 Deepseek R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,获得97.3%的惊人成绩,表现与OpenAI-o1-1217相当。在编码相关的任务中表现出专家水平,在Codeforces上获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者 DeepSeek-R1 在知识类问答上推动科学探索边界:MMLU MMLU-Pro GPQA Diamond 等 STEM-related 榜单上取得良好表现 R1 展现出强推理模型在AI-Driven Researc
6、h 的潜力 在长文本依赖任务如 FRAMEs 和 事实性推断任务 Simple-QA上表现突出5回顾:PrePre-Training Scaling LawTraining Scaling LawPre-Training Scaling Laws:预训练模型上广泛观察到的现象,协调了计算量C、模型参数量N和数据大小D之间的关系6回顾:PostPost-Training Scaling LawTraining Scaling LawPost-Training 阶段,随着训练时计算量(来自RL的Training阶段)和 Test-Time 计算量(例如Test-Time Search)的增长,模型