《天津大学:2025深度解读DeepSeek:原理与效应(44页).pdf》由会员分享,可在线阅读,更多相关《天津大学:2025深度解读DeepSeek:原理与效应(44页).pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、深度解读DeepSeek:原理与效应天津大学自然语言处理实验室The Natural Language Processing Laboratory at Tianjin University熊德意天津大学https:/dyxiong.github.iohttps:/tjunlp-lab.github.io伏羲传语大语言模型发展路线图0102DeepSeek V2-V3/R1技术原理03DeepSeek效应04未来展望报告目录生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Tr
2、ansformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成问题求解的过程和答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI A
3、SIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生
4、成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数
5、据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI
6、:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatG
7、PT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-自然语言处理与语言模型自然语言处理:人类语言的智能化处理与分析,使计算机具备听、说、读、写、译等人所具备的语言能力语言模型:自然语言统计
8、建模,简单说,就是预测句子中的下一个单词是什么大语言模型:2018 2024Zhao et al.A Survey of Large Language Models.arXiv:2303.18223大语言模型:技术栈算算力力管管理理数数据据处处理理和和管管理理通通用用模模型型行行业业模模型型资资源源分分配配负负载载均均衡衡任任务务调调度度性性能能监监控控弹弹性性扩扩展展容容错错机机制制质质量量筛筛选选预预训训练练数数据据内内容容过过滤滤数数据据去去重重语语言言检检测测领领域域分分类类版版本本控控制制G Ge en ne er ra al l-p pu ur rp po os se e M M
9、o od de el lD Da at ta a P Pr ro oc ce es ss si in ng g a an nd d M M a an na ag ge em m e en nt tC Co om m p pu ut ti in ng g M M a an na ag ge em m e en nt t硬硬件件软软件件H H1 10 00 0A A1 10 00 0M M I I3 35 50 0M M I I3 30 00 09 91 10 0B B9 91 10 0A A数数据据分分类类网网页页代代码码书书籍籍论论文文百百科科处处理理流流程程对对齐齐训训练练数数据据评评测测数
10、数据据价价值值对对齐齐知知识识能能力力安安全全可可信信专专业业领领域域P Pr ro om m p pt tR Re es sp po on ns se es sA AC CB BD D模模型型评评测测预预训训练练对对齐齐训训练练S SF FT TD DP PO OR RL LH HF FB Be es st t o of f N N s sa am m p pl li in ng gD Da at ta a P Pa ar ra al ll le el lP Pi ip pe el li in ne e P Pa ar ra al ll le el lS Se eq qu ue en nc
11、ce e P Pa ar ra al ll le el lE Ex xp pe er rt t P Pa ar ra al ll le el lZ Ze eR RO OF Fl la as sh hA At tt te en nt ti io on nT Te en ns so or r P Pa ar ra al ll le el l动动态态批批处处理理模模型型量量化化模模型型剪剪枝枝模模型型蒸蒸馏馏算算子子优优化化模模型型部部署署性性能能监监控控模模型型训训练练S Sp pe ec ci ia al li iz ze ed d M M o od de el l应应用用层层自自主主规规划划工
12、工具具调调用用信信息息检检索索智智能能客客服服图图文文创创作作代代码码生生成成A Ap pp pl li ic ca at ti io on n通通用用模模型型行行业业模模型型领领域域微微调调训训练练领领域域对对齐齐训训练练行行业业模模型型部部署署行行业业模模型型评评测测行行业业数数据据行行业业对对齐齐数数据据数据处理预训练后训练应用部署数据治理数据要素知识源头基座模型自监督学习能力涌现对齐模型微调&强化安全可信红队测试商业落地模型压缩o 训练范式 预训练 基座模型 后训练 对齐模型 推理训练 推理模型o 关键 模型架构 训练算法 扩展法则大语言模型:生命周期与范式杀手锏:性能/成本 曲线|性
13、价比扩展法则Sasha Rush and Daniel Ritter.Speculations on Test-Time Scaling.2024大语言模型:后训练范式成本高昂(上千万)少数企业/实验室可做成本较低大部分实验室可做推理语言模型?MCTS过程奖励模型PRMSasha Rush and Daniel Ritter.Speculations on Test-Time Scaling.2024大语言模型发展路线图0102DeepSeek V2-V3/R1技术原理03DeepSeek效应04未来展望报告目录DeepSeek:2023 2023.11DeepSeek V12024.5Dee
14、pSeek V22024.11DeepSeek R1-Lite2024.12DeepSeek V32025.01DeepSeek R1天边的两多云(国内外现状)o 模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】o 推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】DeepSeek:技术创新模型架构|V2DeepSeek V2主要创新o DeepSeekMoEo MLADeepSeekMoEo稀疏激活:计算不随规模呈线性增长o相比传统MoE:细粒度专家(共享+路由)o路由&通信改造:Device-Limited RoutingAuxiliary Loss f
15、or Load BalanceToken-Dropping StrategyMLA:低秩压缩,降低KV cache占用空间V2规模:236B total parameters,21B activated parameters,128K context windowDeepSeek:技术创新模型架构|V2杀手锏:性能/成本 曲线|性价比训练开销存储开销生成速度DeepSeek:技术创新模型架构|V3DeepSeek V3主要创新o Infrastructureso Multi-Token Prediction(MTP)Infrastructureso减少流水线气泡o高效节点间All-to-All
16、通信oFP8训练o低精度存储与通信MTP:一次预测多个topkenV3规模:671B total parameters,37B activated parameters,trained on 14.8T tokensDeepSeek:技术创新模型架构|V3杀手锏:性能/成本 曲线|性价比DeepSeek:技术创新模型架构|V3成本杀手锏:性能/成本 曲线|性价比During the pre-training state,training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours,i.e.,3.7
17、days on our own cluster with 2048 H800 GPUs.Consequently,our pre-training stage is completed in less than two months and costs 2664K GPU hours.成本大模型研发成本大模型部署推理成本大规模高性能加速器(折旧)大模型研发人员成本大模型架构技术探索成本大模型数据成本大模型最终训练成本DeepSeek:技术创新创新程度DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积累了大量技术创新,包括MLA、FP8训练、MoE All-
18、to-All通信瓶颈解决、MTP等,这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提下,尽可能通过算法挖掘和提升硬件训练和解码效率美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法绕过了美国的算力护城河DeepSeek:技术创新推理模型|R1DeepSeek R1主要创新o DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻o 推理模型训练技术框架:4步法,有效解
19、决了R1-Zero存在问题,将推理与对齐合为一体o 强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本o 推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应)为什么MCTS+PRM是“误区”o The bitter lesson:scalabilityo OpenAI竞争策略DeepSeek:技术创新推理模型|R1-Zero1.强化学习训练规模大业内通常训练几十RL steps,DeepSeek训练几千RL stepsTlu 3 最大发布模型只训练了50 RL steps2.RL Training Scaling Law:涌现refl
20、ection、aha自动涌现出搜索、反思、顿悟、纠错与testing-time scaling law一致,可从性能增长曲线和长度增长曲线推出推理时scaling law3.通过prompt策略引导模型思考和给出答案,避免基座模型不能生成停止符使用标记R1-Zero存在问题:poor readability,language mixinghttps:/www.interconnects.ai/p/deepseek-r1-recipe-for-o1DeepSeek:技术创新推理模型|R1 RecipeDeepSeek-V3-baseDeepSeek-R1-Zero中间推理模型大规模强化学习Rea
21、soning Data长CoT数据SFT CheckpointStep 1.Reasoning SFTCold StartStep 0.Generating Long CoT dataFew-shot ICL+人工后期refiningRL-tuned ModelStep 2.Reasoning-oriented RL类似训练R1-Zero直至训练收敛General-Purpose ModelStep 3.Rejection Sampling SFT reasoning data(600K)general instruction data(200K)Step 3 Reasoning DataMa
22、th,Code,Logic(600K samples)Step 3 Instruction DataWriting,QA,trans,etc.(200K samples)DeepSeek-R1Step 4.General RLReasoning RL with rule-based rewardsRLHF Preference Tuning with safety rewardso DeepSeek-R1 不是唯一的推理模型框架,2025年将出现更多新的框架o 要复现上述框架,需要DeepSeek开源相关数据DeepSeek:技术创新推理模型|RL1.强化学习框架GRPO(DeepSeekMa
23、th)采用蒙特卡洛采用估算以取代Value模型,降低计算和存储开销2.强化学习奖励模型o 采用easily verifiable rewardsAccuracy rewardFormat rewardLanguage-consistency rewardo 避免过程奖励模型:计算复杂,容易reward hackingDeepSeek:技术创新推理模型|推理能力蒸馏Step 3 Reasoning DataMath,Code,Logic(600K samples)Step 3 Instruction DataWriting,QA,trans,etc.(200K samples)Qwen2.5-M
24、ath-1.5B,Qwen2.5-Math-7B,Qwen2.5-14B,Qwen2.5-32B,Llama-3.1-8B,and Llama-3.3-70B-InstructDeepSeek-R1-Distill-Qwen2.5DeepSeek-R1-Distill-LlamaSFT推理模型蒸馏到小模型o reasoning能力可以蒸馏到小模型o 大模型蒸馏到小模型优于小模型直接通过大规模RL训练o 再次验证了模型规模在AGI发展中的重要性o 推理者同样需要规模支撑DeepSeek:技术创新推理模型|R1杀手锏:性能/成本 曲线|性价比DeepSeek:技术创新推理模型|R1TJUNLP实测
25、DeepSeek-R1逻辑推理性能DeepSeek:技术创新创新程度DeepSeek R1是在探明方向(OpenAI o1引领和证实的方向)上进行0-1的创新突破,独立探索出基于大规模强化学习的大语言模型推理技术路线,避开了过去一年多(自OpenAI的Q*在社交媒体讨论)业内广泛思索的通过在训练中进行显式搜索、过程奖励模型(即Search+PRM)实现推理的“误区”;贡献:o 独立探索出推理技术路线o 将技术路线公开发布(解惑了业内的“不知”)o 模型开源(MIT License)DeepSeek R1打破了美国第一梯队企业以闭源形成的技术护城河,进一步动摇了美国的“AI Dominance”
26、大语言模型发展路线图0102DeepSeek V2-V3/R1技术原理03DeepSeek效应04未来展望报告目录DeepSeek:效应算力价格战开源 vs 闭源认知误区创新&人才&VisionDeepSeek:效应算力价格战产品:性价比永远是王道技术也是如此数百亿美元构建的前沿技术护城河一夜间被攻破DeepSeek:效应开源 vs 闭源GPT-3选择闭源之后,大模型开源 vs 闭源之争、之战一直存在DeepSeek R1的开源发布,一举赶超闭源大模型,是大模型开源史上的里程碑美国AI第一梯队企业的前沿技术封闭被打破开源 vs 闭源不仅涉及技术的公开性,也关乎AI安全治理DeepSeek:效应
27、认知误区如果ChatGPT刷新了我们对AI的认知,那么DeepSeek在某种程度上颠覆了:o 美国人对中国AI水平的认知:长久以来,美国认为中国在AI科技创新上更多是跟随者角色o 大模型研发成本的认知:大模型研发成本需要数千万乃至上亿美元DeepSeek:效应创新&人才&Vision大模型顶尖人才技术型人才:锐意进行大模型底层技术创新和冒险(第一类人才)战略型人才:具有AGI技术远见和vision(第二类人才)关于Sora、国内大模型及通用人工智能趋势 认识大模型(载于学习时报)o 第一类人才自我驱动性很强,技术敏感,不需要设定过多的条条框框,只需要给定方向,最大限度激发创新潜能o 突破:通常
28、要打破学科思维定势,或者是本学科还没有形成思维定势的青年人才,或者与其他学科交叉o 技术型人才可成长为战略型人才,始终对新事物保持敏锐,能长远思考,具备远大梦想DeepSeek:效应创新&人才&VisionDeepSeek V3和R1的创新,从技术上看,是在探明方向上的较大创新,相比别人同期做的1-100要更创新,笔者将其定义为探明技术方向上的0-1创新(独立探索出技术路线),但不是颠覆了原有技术框架或者开辟了新的方向。探明方向上的0-1创新,如果有足够多的第一类人才,加上足够多的算力和高超的人才管理,是可以实现的,DeepSeek的成功正是得益于此;技术方向已经被探明了的“追赶”相对容易,难
29、的是在前面面向未知开路,即在未探明方向、未有概念上进行0到1创新、或者进行概念形成和验证,这方面的创新是要更多胆量、更多vision、更多不计成本投入才能做到的,同时需要第二类人才与第一类人才紧密合作,形成双反馈;来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破;我国如果要在2030年实现“人工智能理论、技术与应用总体达到世界领先水平”,需要更多企业、高校、研究机构开展探明方向和未探明方向上的0-1创新;大语言模型发展路线图0102DeepSeek V2-V3/R1技术原理03DeepSeek效应04未来展望报告目录未来未来AGI/ASI可能还需要3-5个重大breakthro
30、ughs个人预测:技术角度看,人类所有职业实现AI自动化需要30年2014-2024重要突破:1.Attention2.Transformer3.Scaling Law4.RLHF5.o1/R1AGI Path当下1-5年5-10年10-20 年现阶段正在突破技术,路线图逐渐明确,可提出新的技术路线。推理者现阶段应用和待突破技术,处于通用型0-1前半段,垂类的1-100阶段。智能体第二个重大突破技术,处于0-1的概念完善阶段,自动化科学研究/技术创新、科学idea发现、科学难题求解、AI Scientist。创新者第三个重大突破技术,处于0-1的概念形成阶段,AI自组织、自管理、自推进,为人类
31、或团体安排事项、管理科学、社会等重要领域。组织者可解释性与安全极具挑战,需要多个重大突破,目前处于0-1阶段。科学(研究/发现)范式第1范式:经验科学观察现象经验1600年第2范式:理论科学理论模型牛顿定律、电动力学方程等1950年第3范式:计算科学数值计算模拟2010年第4范式:数据驱动科学大数据数据建模、分析、挖掘2022年第5范式:智能驱动科学大模型、智能体自动化科学研究2023年DeepSeek R2 Deep ScienceoR1训练速度非常快,3min/stepoDeepSeek具有快速迭代推理大模型的优势oR2可能很快发布oR1主要聚焦于数学、代码、逻辑推理,要使大模型真正达到通
32、用Reasoner、问题求解器,需要进行更多领域RL训练OpenAI RL Finetuning?科研人员机会:AI reasoning+researchNathan Lambert.How to approach post-training for AI applications.2024.12AI Safety现阶段DeepSeek R1注重推理能力的提升,某种程度上,模型安全性有所降低,但模型安全和推理并不冲突,大模型安全需要推理能力加持,R1推理能力可以应用于大模型安全并加强之推理+安全:创新解决方案(需要突破)?TJUNLP实测DeepSeek-R1自主AI安全Shi et al.,2024.Large Language Model Safety:A Holistic Surveyhttps:/arxiv.org/pdf/2412.17686感谢TJUNLP大模型基准测试