《@ai呀蔡蔡:2025年DeepSeek自学手册-从理论(模型训练)到实践(模型应用)(73页).pdf》由会员分享,可在线阅读,更多相关《@ai呀蔡蔡:2025年DeepSeek自学手册-从理论(模型训练)到实践(模型应用)(73页).pdf(73页珍藏版)》请在三个皮匠报告上搜索。
1、DeepSeek自学手册从理论(模型训练)到实践(模型应用)作者:ai呀蔡蔡(全平台同名)0104020503DeepSeek V3和R1是怎么训练出来的13个DeepSeek官方提示词样例DeepSeek R1后提示词的变与不变DeepSeek实际应用场景DeepSeek R1四大使用技巧Contents目录06DeepSeek替代方案(在线&本地部署)注:当前手册的信息更新截至2025年2月10日01DeepSeek V3 和 R1是怎么训练出来的ai呀蔡蔡DeepSeek V3 是什么?DeepSeek V3 是一个强大的MoE语言模型(非推理型模型)。它在数学、代码等任务上吊打其它开源
2、模型,甚至能和闭源大佬 GPT-4o、Claude-3.5-sonnet 掰手腕,但训练花的钱还不到 600 万美元。注:MoE,全称是 Mixture-of-Expe?s,翻译成中文就是“混合专家”。你可以把它想象成一个团队,这个团队里有很多专家,每个专家都有自己的专长。当遇到一个问题时,不是所有专家都一起上,而是根据问题的类型,选择最合适的几个专家来解决。这样不仅提高了效率,还提升了性能。初识 DeepSeek V3数据、图表源自:DeepSeek-V3 Technical Repo?ai呀蔡蔡DeepSeek V3 架构多 Token 预测(MTP)策略V3架构创新之一。传统模型一次预测
3、1个词,DeepSeek V3同时预测多个词(类似“预判下一步”),提升数据利用效率,还能加速生成Multi-Head Latent Attention(MLA)V3基础架构之一,在DeepSeek V2已经验证有效。MLA翻译成中文就是多头潜在注意力,传统模型推理时需缓存大量数据,MLA通过压缩键值对(类似“精简笔记”)减少内存占用,可以让模型在处理长文本时更高效。DeepSeekMoEV3基础架构之一,同样在DeepSeek V2已经验证有效。DeepSeekMoE 在传统 MoE 的基础上进行了多项创新和优化,比如更精细的专家分工、共享专家等,适配复杂任务,进而提升模型的性能和计算效率。
4、无额外损耗的负载均衡前面DeepSeekMoE中提到的多项创新,其中就包括V3才推出的无额外损耗的负载均衡。简单来说,在训练过程中,DeepSeekMoE 会监控每个专家的“工作量”,进而动态调整专家使用频率,避免某些专家“过劳”或“躺平”。01020304呀蔡蔡DeepSeek V3 训练步骤和数据使用无标注数据集预训练大模型基础大模型通用精调模型训练数据:相比V2,V3提高了数学和编程样本的比例,同时扩展了除英语和中文之外的多语言覆盖范围预训练(无监督学习)精调(监督学习)精调(强化学习)推理数据:对于数学、代码、逻辑推理等需要复杂推理过程的任务,V3采用了基于 R1 生成的高质量推理数据
5、非推理数据:对于创意写作、角色扮演、简单问答等非推理类任务,则用 V2.5 生成响应,并由人工标注和校验基于规则的奖励模型:对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型基于模型的奖励模型:对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型ai呀蔡蔡DeepSeek V3 性能表现数据、图表源自:DeepSeek-V3 Technical Repo?知识基准通用能力:MMLU(综合知识)、GPQA(博士级难题)等测试中,超越所有开源模型,接近GPT-4o事实性:中文事实问答(C-SimpleQA)甚至超过闭源模型,英文略逊于G
6、PT-4o代码与数学代码竞赛:LiveCodeBench榜首,碾压其他模型。数学推理:MATH-500等测试中,达到开源模型最高水平,部分超越闭源模型。i呀蔡蔡DeepSeek R1 是什么?DeepSeek R1是一个强大的推理模型,擅长处理复杂任务。它在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,小模型则超越 OpenAI o1-mini;语言能力在当前独一档。注:推理型模型(如R1、o3)会自己画草稿纸分步骤思考,生成的内容具有较高的准确性和可解释性(不代表没幻觉)。非推理模型根据预定义的指令和规则来生成内容,就是“你说啥我做啥”,可解释性较低。初识 Deep