《WPS:DeepSeek洞察及行业影响.pdf》由会员分享,可在线阅读,更多相关《WPS:DeepSeek洞察及行业影响.pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、DeepSeek洞察及行业影响单击此处添加副标题汇报人:WPSDeepSeek出了什么产品?为什么在国内外引起如此反响?对各行业AI的应用有什么影响?DeepSeek是在什么宏观背景产生的?缺乏根技术支撑科研和商业应用主要构建在国外生态上 A国AI产业在芯片、学习框架、核心算法等根技术层领先。中国AI产业偏重于应用,在互联网、安防、金融等领域取得了一定进展,但底座构建在国外生态上,缺乏根技术支撑。ViT、Switch-CAI应用大模型AI平台学习框架计算架构AI芯片芯片对华产品出口限制升级芯片模型开源数据SME单芯片 全产业链单边管制多边管制NSCAI报告中,中国出现670次,俄罗斯(64)、
2、日本(61)、韩国(29),英国(28),印度(28)、法国(24)、德国(15)禁止出口高性能芯片到中国:22年10月,禁A100/H100,23年禁A800/H800、以及AMD和Intel高性能AI芯片等限制A国云服务厂家为中国提供智能训练算力服务A国加大对华人工智能管理NSCAI发布报告,将联合盟友对华AI全面限制A国禁令层层加码,步步紧逼,全面遏制中国人工智能产业国禁令层层加码,步步紧逼,全面遏制中国人工智能产业Start引领新模式2023年5月由对冲基金幻方量化实际控制人梁文峰成立2024年5月价格低于同行,在滑铁卢大学老虎实验室的LLM排名中位列第七。2023年11月2日发布首个
3、模型DeepSeek coder,免费供商业使用且完全开源2024年12月26日671B亿参数,仅55天训练,十分之一的成本,(558万美元),超越Llama 3.1和Qwen 2.5,与GPT-4 O相当。2023年11月29日推出DeepSeek LLM,参数规模达670亿,同时发布聊天版本DeepSeek Chat。2025年1月20日比肩OpenAI o1,支持模型蒸馏,国产AI迎来里程碑时刻2024年11月宣称在逻辑推理、数学推理和实时问题解决等任务上超越OpenAI O1,但华尔街日报测试发现OpenAI O1在部分问题上更快。2023年8月华为云开始与DeepSeek合作,并在1
4、2月业务上量华 为 云 合 作幻方量化第一私募DeepSeek成立DeepSeek coder发布LLM发布聊天版本DeepSeek V2发布DeepSeek R1-Lite-Preview发布DeepSeek-V3发布25年1月,165个国家deepseek APP下载榜单第一DeepSeek R1发布1月31日,微软、英伟达、亚马逊全部接入DeepSeek!1月底,deepseek遭受黑客攻击,美国科技股蒸发万亿DeepSeek:23年年5月成立持续走开源道路,月成立持续走开源道路,24年底发布年底发布AI核弹级核弹级产品震惊全球产品震惊全球数学+编程领域大幅领先,DeepSeek-V3训
5、练成本不足Meta/OpenAI的10%,DeepSeek-R1推理成本仅为OpenAI o1的3%,成为开源模型SOTA。低成本完美对标OpenAI O1,突破精确语义理解及复杂推理任务绕过CUDA挖掘FP8硬件潜力,MOE和MLA技术实现不到10%的成本方案性能优低成本技术创新150M$Llama3.1-405B训练成本 5.57M$DeepSeekV3训练成本 DeepSeek-R1推理成本仅为OpenAI o1的3%数学、科学和代码等领域领先业界,成为业界公认的LLM的领先模型来源:DeepSeek模型测试数据&互联网硬件级、算法级、架构级、工程级、开源生态5大技术创新,轰动全球硬件级
6、优化算法革命架构创新工程奇迹开源生态 绕过CUDA进行PTX编程 计算与通信优化,性能提升30%GRPO:群体进化的智慧筛选器 自我验证机制:AI的错题本系统 混合专家模型的智能路由器“多头潜在注意力MLA:空间压缩术 训练框架加速:16到3的量化压缩,通信降低89%推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能DeepSeek大模型解读:完全开源大模型解读:完全开源+免费商用,挑战免费商用,挑战A国国AI霸权霸权Deepseek V3训练(H800)成本(DeepSeek官方论文披露)技术报告披露共557.6万美元,合0.39亿元2788K GPU
7、 hours,每GPU hour 使用费2美元Meta Llama3 405B的训练成本约3930万H100 GPU小时,是DeepSeek的14倍,而后者的671B的参数量更大综合成本=基础(base)模型训练成本+增训成本+实验成本+其它费用注1:训练用时(按3周计)数据来自对DeepSeek工作人员的访谈记录:https:/ H800集群,同时开启,同时工作,同时停止注3:其它费用数据来自对DeepSeek APP提出关于成本问题时回答涉及的范畴和数据:https:/ V3 Base)训练成本 DeepSeek V3训练成本=5,576,000$增训成本=R1训练成本+800K生成(推理
8、)成本+微调及RL成本 1.6万卡集群工作(训练)用时(3周)总电价 =5576000*(21/(2788000/16000/24)=16,128,000$实验成本预计为模型训练24倍,按照3倍计算=(5,576,000$+16,128,000$)*3=65,112,000$其它费用=基础设施建设和使用(按5年为硬件生命周期,分摊到训练V3和R1的总用时及卡规模占比)+人力研发费(1年预估分摊到训练V3和R1的总用时)+其它投入隐形支出(如运营成本1年分摊到训练V3和R1的总用时)=(5亿$+16亿$)*(21+7.26)/(5*365)*(1.6/5)+(0.6亿$)*((21+7.26)/
9、365)+(9亿$)*(21/365)=10,405,874$+0.03452$+69,682,191$=80,088,065$总计:1.66亿美金(基础设施成本核算到训练期间)行业机构(semianalysis)预估综合投入年度5亿13亿美金模型训练成本模型训练成本模型开发成本,模型开发成本,DeepSeek的模型开发成本保守估的模型开发成本保守估计约计约1.66亿美金亿美金业界LLM大模型DeepSeekMHA/GQA压缩KVCache降低内存90%支持更高并发AttentionMOE训练精度PP并行算法强化学习Token预测模型结构优化以计算换内存、降通信,空间时间双优化计算通信优化降低
10、计算,极致的掩盖,同时保证训练精度后训练优化降低学习复杂度推理优化单次推理效率倍级提升GPT416专家选2FP16/BF161F1BPPOSTP1次1token预测MLA多头潜在注意力DeepSeekMoE更稀疏256选8+1FP8混合精度DualPipeGRPO组相对策略优化MTP1次多Token预测核心收益效果模型容量提升3倍计算量减少70%计算量减少35%平衡训练效率与数值精度计算与通信极致掩盖减少50%PP气泡简化强化学习流程降低后训练复杂度一次预测多个token推理倍级提升DeepSeek V3/R1,2个月完成训练,是同类MOE效率的1.52倍DeepSeek引领全新范式,从模型结
11、构到训推全流程的极致工程优引领全新范式,从模型结构到训推全流程的极致工程优化化DeepSeek R1-Zero 推理模型DeepSeek V3基础模型SFT-1 冷启动微调GRPO强化学习 RL-1 强化学习SFT-2 微调DeepSeek R1推理模型千量级长思维链(CoT)数据60万 长思维链(CoT)数据 20万非推理数据(写作、基本问答)RL-2 强化学习给模型正确的激励,模型可以自主思考、自我反思纯强化学习:首个公开研究验证了大规模语言模型(LLM)的推理能力,通过纯粹的强化学习来激励,而不需要监督微调两步强化学习和数据微调,完美复制O1深度推理能力冷启动:少量高质量数据作为冷启动,
12、以防止强化学习训练早期不稳定模型蒸馏:大模型的推理模式可以被蒸馏到小模型中,小模型也可以很强大DeepSeek R1-ZeroDeepSeek R1Qwen-1.5BQwen-7BQwen2.5-14BQwen2.5-32BLlama3.1-8BLlama3.3-70B知识蒸馏DeepSeek-R1-Distill-80万条推理样本DeepSeek R1技术创新:强化学习实现推理开源复现,提升模型技术创新:强化学习实现推理开源复现,提升模型深度思考能力深度思考能力模型蒸馏(Model Distillation)核心是通过知识迁移的方式,将一个复杂的大模型(教师模型)的知识传授给一个相对简单的小
13、模型(学生模型),利用教师模型的预测结果作为软标签对学生模型进行训练,从而保持较高性能的同时,极大降低了模型的复杂性和计算量,实现模型的轻量化和高效化。DeepSeek V3&R1满血模型与蒸馏模型的区别满血模型与蒸馏模型的区别类别满血模型蒸馏模型参数规模660B(如R1)、671B(如V3)1.5B至70B(如R1-Distill系列)架构混合专家(MoE)架构或大参数Transformer基于LLaMA、Qwen等开源模型二次优化训练基础自研训练框架(如V3再训练)通过知识蒸馏从满血模型迁移推理能力显存660GB以上(INT8)8G显存可部署1.5B模型,24G显存适配14B核心技术强化学
14、习、长链推理(Chain-of-Thought)知识蒸馏、监督微调(SFT)推理能力支持复杂逻辑推理(如数学、代码)在特定任务(如问答、简单交互)接近满血版应用场景科研、高端企业服务、云API调用边缘设备、智能座舱、政务服务、教育工具单击此处添加标题单击此处添加标题单击此处添加文本具体内容,简明扼要地阐述您的观点。根据需要可酌情增减文字,以便观者准确地理解您传达的思想。单击此处添加文本具体内容,简明扼要地阐述您的观点。根据需要可酌情增减文字,以便观者准确地理解您传达的思想。单击此处添加文本具体内容,简明扼要地阐述您的观点。根据需要可酌情增减文字,以便观者准确地理解您传达的思想。单击此处添加文本
15、具体内容,简明扼要地阐述您的观点。根据需要可酌情增减文字,以便观者准确地理解您传达的思想。企业AI架构数字底座算力网络存储集群管理与运维 云化管理平台平台层AI管理平台 应用层行业业务场景智慧客服智慧营销代码助手智能投研智能安防精准预测自动驾驶模型层大模型NLP大模型多模态大模型Agent框架工具套件/服务AI4S大模型V3/R1在NLP领域呈现优势根据应用场景选模型构建标准化API接口1.大模型当前处于“交替领先”阶段2.拥抱DeepSeek,但不是唯一选择,架构解耦支持多种模型部署运行能力对比:V3擅长问答 R1主攻逻辑体验差异:V3快速响应,R1需深度思考知识含量:R1=V3知识问答:R
16、1V3数学代码:R1V3小幅提升大幅提升V3立刻回答R1先思考,几十秒后回答问题思考若干秒问题R1回答延时N秒V3回答文 科 生快 回 答DeepSeek 满血版V3文 理 兼 修慢 思 考DeepSeek 满血版R1DeepSeek 蒸馏版 轻量化起步 边端侧推理选择选择选择高成本:部署DeepSeek满血版V3/R1低成本:部署DeepSeek蒸馏版本场景体验成本构建兼容多种大模型的算力平台根据“场景+体验+成本”选型模型如何选择模型?拥抱如何选择模型?拥抱DeepSeek等开源模型,同时构建多模型兼容等开源模型,同时构建多模型兼容的算力底座架构的算力底座架构大模型是系统化工程智慧电力设施
17、异常识别精度平均提升19%智慧水泥能耗节约3000万/年智能制造工业质检准确率提升14%+智慧法务卷宗审核降低人工成本50倍企业财务异常识别准确率提升20%智慧金融药物研发研发周期缩短10倍智慧物流1个模型替代9个模型完成货品监控智慧铁路车辆未知故障预测发现率提升1倍智慧节能中央空调节约能耗 15%智慧营销提升销售转化率30%L1行业大模型L0基础大模型高性能算力|超宽无损网络|高性能存储 行业应用医药大模型矿山大模型气象大模型电力大模型视觉NLP多模态预测科学计算金融大模型基础设施政务大模型DeepSeek降低大模型落地门槛,激发推理算力需求,加速大模型降低大模型落地门槛,激发推理算力需求,加速大模型走深向实走深向实谢谢!汇报人:WPS