《哈工大计算学部:2025大模型原理、技术与应用:从GPT到DeepSeek(66页).pdf》由会员分享,可在线阅读,更多相关《哈工大计算学部:2025大模型原理、技术与应用:从GPT到DeepSeek(66页).pdf(66页珍藏版)》请在三个皮匠报告上搜索。
1、车万翔哈工大计算学部人工智能学院社会计算与交互机器人研究中心(HIT-SCIR)2025年2月28日大模型原理、技术与应用从GPT 到 DeepSeek从GPT 到 DeepSeek为什么是语言?大模型 又称 大语言模型(Large Language Models)语言 是人类交流思想、表达情感最自然、最深刻、最方便的工具“语言是继真核细胞之后最伟大的进化成就”社会生物学之父爱德华威尔逊“语言本身就是人类有史以来最大的技术发明”詹姆斯格雷克信息简史人类历史上大部分知识是以语言文字形式记载和流传的运算智能能存储会计算感知智能能听会说能看会认认知智能能理解会思考什么是自然语言处理?自然语言 指的是
2、人类语言,特指 文本符号,而非语音信号 自然语言处理(Natural Language Processing,NLP)属于 认知智能 是人类和动物的主要区别之一用计算机来 理解 和 生成 自然语言的各种理论和方法需要更强的 抽象 和 推理 能力“自然语言处理是人工智能皇冠上的明珠”自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈“如果给我10亿美金,我会建造一个NASA级别的自然语言处理研究项目”美国双院院士、世界知名机器学习专家Michael I.Jordan“下一个十年,懂语言者得天下”美国工程院士、微软前全球执行副总裁沈向洋“深度学习的下一个大的进展应该是让神经网络真正理解文档
3、的内容”诺贝尔奖得主、图灵奖得主、深度学习之父Geoffrey Hinton“深度学习的下一个前沿课题是自然语言理解”图灵奖得主、Meta AI负责人Yann LeCun自然语言处理的发展历史自然语言处理技术已经经历了 五次范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习2010201720232024大模型预训练语言模型20182023GPT 采用 语言模型 预训练任务 语言模型计算一个句子在语言中出现的概率或给定上文,预测下一个词出现的概率Generative Pre-trained Transformer,OpenAI 2018 哈工大位于_ 知识 我在水果
4、店看到了苹果、香蕉、_ 语义 小明打了小红,然后她_ 推理、指代 我一定推荐给朋友看,这部电影真是_ 情感 语言模型学到了什么?预训练阶段GPT 使用建模能力更强的 Transformer 模型 在目标任务上精调整个 预训练 模型 接入的下游任务模型可以非常 简单三大创新开启了自然语言处理 预训练模型 时代精调阶段未标注文本语料库模型训练数据标注模型预训练模型精调Fine-tune预训练Pre-trainGPT-3:大模型早已有之 Language Models are Few-Shot Learners,OpenAI&Microsoft 2020 1750亿参数,模型太大 无法精调 为不同的
5、任务设计相应的“提示语”GPT-3 代码生成示例下面文本的情感是:这本书写得很好的情感是?任务描述问题 无需训练,便可完成“文本”生成 任务 如:问答、文章续写、网页生成、自动编曲等示例(In-context)我喜欢这部电影的情感是褒义GPT-3的不足GPT-3测试样例Question:Which is heavier,a toaster or pencil?(烤箱和铅笔哪个更重?)GPT-3:A pencil is heavier than a toaster.(铅笔比烤箱重。)Question:How many eye does my foot have?(我的脚有几只眼睛?)GPT-3:
6、Your foot has two eyes.(你的脚有两只眼睛。)GPT-3原文指出,在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%!预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的瓶颈,故在深层次语义理解上与人类认知水平还相去较远!缺乏知识推理与可解释性解决方案:ChatGPT(OpenAI,2022.11)https:/ 在代码数据上继续预训练ChatGPT 的关键核心技术(1/3):无监督学习大规模预训练语言模型,涌现出推理能力 模型 ChatGPT 的关键核心技术(2/3):有监督学习 将各种任务形式进行统一(指令+输入输出)在
7、众多(成千上万)任务的标注数据上精调语言模型 模型能够处理未见任务(Zero-shot)使大模型更好遵循人类指令:指令精调(Instruction Tuning)https:/arxiv.org/pdf/2210.11416.pdf ChatGPT 的关键核心技术(3/3):强化学习 降低人工标注难度 生成的结果更多样 能利用负面的标注结果将大模型进一步向人类期望对齐:人类反馈强化学习(RLHF)https:/huggingface.co/blog/rlhf 引爆“百模大战”Open ResourceModel SourceClose ResourceEncoder-onlyEncoder-D
8、ecoderDecoder-only20202021202220232024GPT3InstructGPTChatGPTGPT42025O1CriticGPT20192018BERTErnieRoBERTaALBERTDistillBERTElectraDeBERTaSpanBERTDeBERTav3BGEE5Ada-002text-embedding-3T5BARTmT5Ernie3.0umT5GLMmT0CPM-2T0SwitchChatGLMTkFLanUL2UL2FlanT5ST-MoEGPTGPT-2TransformerXLNetDeepSeek-v3Step-Reason-min
9、iSkywork-o1GLM-ZeroFlanPaLMOPTBLOOMWeLMSkyworkJurassic-1GopherChinchillaBaichuanXGLMLLaMABLOOMzDeepSeek-LLMVicunaVicuna-v1.5AlpacaQwen2.5Baichuan2InternLMJurassic-2QwenHuoziMossPaLM2Yi-1.5YiMixtralInternLM2.5Gemini-1.5SparrowDeepSeek-v2Step-1InternLM2OLMoLLaMA3Mistral LargeStep-2Mistral Large 2Qwen2
10、OLMo2DeepSeek-v2.5LLaMA2GeminiQwen1.5MistralGPTNeoXPaLMMPTGemini-ThinkingGemini-2InternLM3DeepSeek-R1QwQSimCSEModel TypeCNNMLPRNNDeepSeek-R1 的横空出世Nature News 报道:“中国的廉价且开源的大型语言模型震撼了科学界!”由中国研发的DeepSeek-R1大模型是一种既具备 高性价比 又完全 开源 的“推理”模型,其性能可与OpenAI的 o1模型媲美。通过模仿人类推理过程,这些模型能够逐步生成响应,在解决科学问题时表现得比早期大模型更为出色,可能
11、对科研工作产生深远的影响从DeepSeek-V1到R1发布时间:2024.1核心技术:类LLaMA架构+SFT+RLHF训练数据量:2T训练稳定程度:不稳定最大参数量:67B发布时间:2024.12核心技术:基于bias 负载均衡+MTP(多词元预测)训练数据量:14T训练稳定程度:稳定最大参数量:671B(激活37B)训练成本:2788KGPU小时/$5.58M发布时间:2024.5核心技术:MoE(更多共享专家)+MLA(多头潜在注意力)训练数据量:8T训练稳定程度:较稳定最大参数量:236B(激活21B)训练成本:172.8K GPU小时发布时间:2025.1核心技术:只使用RL学会推理
12、能力+将RL引入基模型架构训练稳定程度:很稳定最大参数量:671B(激活37B)发布时间:2025.1核心技术:SFT学习推理格式+RL学习推理能力训练稳定程度:很稳定最大参数量:671B(激活37B)V1V2V3R1-ZeroR1 GRPO(DeepSeekMath,2024.2)-无须价值网络-提高学习稳定性-降低学习开销DeepSeek的核心贡献只使用强化学习(RL),模型自主学习到推理能力,性能接近o1模型训练、推理速度更快,远超o1类模型,极大节约硬件成本DeepSeek坚持开源精神,开放了 R1模型及其蒸馏出的子模型只用RL习得推理能力自然语言处理的发展历史小规模专家知识19501
13、990浅层机器学习算法19902010深度学习2010201720232024大模型预训练语言模型201820232025?推理DeepSeek-R1 引发自然语言处理的 第六次范式变迁推理(Reasoning)是指根据已知的信息、事实、规则或前提,通过一定的思维过程和方法,推导出新的结论、判断或知识的认知活动。它是人类思维和智能的核心组成部分,也是人工智能、科学研究和日常决策中的关键能力。推理采用的核心技术思维链(Chain-of-Thought,COT)一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来 早期的思维链能力是模型自发“涌现”的(a)少样例推理(b)少样例思维链推理(
14、Wei et al.,2022)(c)零样例推理(d)零样例思维链推理(Kojima et al.,2022)问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:(输出)8个。问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:小明一开始有5个乒乓球,在买了2筒后增加了2乘3等于6个,加起来一共11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:(输出)16的一半是8个,8个的一半是4
15、个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:(输出)8个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:让我们一步一步地思考。(输出)16的一半是8个,8个的一半是4个。只用RL习得推理能力DeepSeek-R1-ZeroR1-Zero核心技术全新的技术栈:基于结果的极简版强化学习(只将规则获得的准确率作为奖励)强化学习框架:使用 GRPO(Group Relative Policy Optimization)作为强化学习框架 奖励模型:结果/规则奖励,奖励分为准确率奖励(accu
16、racy rewards)和格式奖励(format rewards),确保模型输出正确的答案格式和推理过程全新的技术栈https:/ Relative Policy Optimization)利用当前策略模型进行多次采样,并使用平均奖励值近似价值函数,从而避免了对价值函数的显式训练,这样做既减少了计算开销,又避免了价值函数训练的困 难,提高 了模 型学 习的 稳定性【DeepSeekMath,2024.2】https:/arxiv.org/abs/2402.03300R1-Zero实验结果性能提升:AIME 2024 的 pass1 分数:39.2%71.0%,接近 OpenAI-o1-pre
17、view性能提升RL不需要复杂的算法,简单的GRPO就够用RL需要大量的数据:R1-Zero训了8000个步骤,如果每个步骤 采样的数据量为1024,那也到了8M级别RL训练不需要过程奖励,结果奖励足够https:/arxiv.org/abs/2501.12948性能提升:AIME 2024 的 pass1 分数:39.2%71.0%,接近 OpenAI-o1-previewR1-Zero实验结果性能提升 强化学习的可扩展性:随着强化学习步骤数增加,模型的性能逐步增强https:/arxiv.org/abs/2501.12948性能提升:AIME 2024 的 pass1 分数:39.2%71
18、.0%,接近 OpenAI-o1-previewR1-Zero实验结果 强化学习的可扩展性:随着强化学习步骤数增加,模型的性能逐步增强 强化学习的Aha时刻:随着强化学习步骤数增加,会在某一步突然涌现出反思/自我评估机制性能提升https:/arxiv.org/abs/2501.12948R1-Zero实验结果强化学习的长思维链自动拓展 随着强化学习的步骤数增加,可以实现思维链长度自然增长https:/arxiv.org/abs/2501.12948DeepSeek-R1提升推理的规范性和泛化性R1总路线冷启动(Cold Start):为了解决 DeepSeek-R1-Zero 的可读性差(如
19、推理格式性差、语言混杂等)和训练不稳定的问题,DeepSeek-R1引入了少量冷启动数据进行预训练,这些数据包含长CoT样本。冷启动(Cold Start)使用长 CoT 示例进行少样本提示 直接提示DeepSeek-R1-Zero 模型生成带反思和验证的详细答案 收集 DeepSeek-R1-Zero 的可读格式输出并经人工标注者后处理收集方法包括https:/huggingface.co/blog/open-r1R1总路线包括两个强化学习阶段和两个监督微调阶段。多阶段训练 第一阶段通过冷启动数据进行监督微调(SFT)第二阶段进行推理导向的强化学习(RL)第三阶段通过拒绝采样(rejecti
20、on sampling)生成新的监督微调数据(SFT)第四阶段再次进行强化学习以优化模型在所有场景下的表现(RL)基础模型Deepseek-R1-ZeroSFTSFT推理 据RLRL推理 据Deepseek-R1-MiddleSFTSFT推理及通用 据RL多场景RL 据Deepseek-R1R1总路线 AIME 2024 的 pass1 分数:71.0 79.8%,接近 OpenAI-o1 Long CoT Warmup 能带来更好的可读性。DeepSeek-R1-Zero的思考空间很混沌,通过SFT初始化,能够让思维空间更加像人类的思维增加稳定性性能提升https:/arxiv.org/ab
21、s/2501.12948极致的模型架构优化主要模型架构优化技术 DeepSeekMoE(Mixture of Experts)多头隐含注意力(Multi-head Latent Attention,MLA)多词元预测(Multi-Token Prediction,MTP)算法优化 FP8混合精度训练 DualPipe 跨节点All-All通信Infra优化https:/arxiv.org/pdf/2412.19437 算法优化DeepSeekMoE 增加模型容量 节约计算资源MoE每生成一个词元激活不同的参数 更多专家(256个)每次选择更专家(8个)共享专家(1个)DeepSeekMoE的特
22、点https:/arxiv.org/pdf/2412.19437 算法优化多头隐含注意力(MLA)将Key-Query-Value(KQV)矩阵映射到低维隐空间KQV降维 提高推理速度 支持更长上下文以及更大的batch减少KV-cache的存储空间https:/arxiv.org/pdf/2412.19437 算法优化多词元预测(MTP)提高推理速度 提高训练数据的利用率 提高模型预测能力一次预测多个词元https:/arxiv.org/pdf/2412.19437 Infra优化FP8混合精度训练ComponentDeepSeek-V2(BF16)DeepSeek-V3(FP8)Query
23、/Key Compressiondc=4dhdc=3dhKV Cache StorageBF16FP8RoPE ApplicationFull PrecisionDecoupled,FP8Attention ComputationBF16FP8+FP32 Accumulationhttps:/aman.ai/primers/ai/deepseek-R1/https:/arxiv.org/pdf/2412.19437Infra优化DualPipe如何更好地进行多机并行,减少并行气泡?将每个块划分为4个组件:注意力、all-all调度、MLP、all-all组合更均匀+细粒度的划分(计算与通讯几乎
24、可以完全并行)可同时从流水线两端提供微批次,并且大部分通信可以完全重叠双向流水线调度样本1样本20https:/arxiv.org/pdf/2412.19437Infra优化跨节点All-All通信方法:跨节点 GPU 通过 IB 通信,节点内通过 NVLink 通信,每个词元最多调度到 4 个节点,从而减少 IB 通信量。同时使用warp技术做调度和组合的优化方法结果:每个词元能在不产生 NVLink 额外开销的情况下,在每个节点上平均选择 3.2 个专家。即每个token扩展到最多 13 个专家(4 个节点 3.2 个专家),而通信成本不变结果NVLink相连的GPU节点NVLink相连的
25、GPU节点InfiniBandall-all调度1NVLink相连的GPU节点NVLink相连的GPU节点InfiniBandall-all组合12323WarpWarpWarphttps:/cs.stanford.edu/sjt/pubs/ppopp14.pdf如何更好地进行all-all调度,all-all组合?DeepSeek模型优化效果DeepSeek-V3的训练成本约为Llama-3.1(规模甚至更小)的1/10模型名称参数量/个训练设备训练卡时/106小时训练成本/106美元Llama65BA100-80GB,2048块1.01.4Llama70BA100-80GB,约2000块1
26、.72.4Llama70BH100-80GB,未知6.412.8Llama405BH100-80GB,约16000块30.861.6Llama70BH100-80GB,未知7.014.0DeepSeek-V3671BH800-80GB,2048块2.85.6大模型的应用OpenAI 给出的 6 条 Prompt 设计原则1.Write clear instructions撰写清晰的指令2.Provide reference text提供参考文本3.Split complex tasks into simpler subtasks将复杂的任务拆分为更简单的子任务4.Give the model
27、time to think”给模型时间“思考”5.Use external tools使用外部工具6.Test changes systematically系统地测试变更Prompt 工程https:/ 一、撰写清晰的指令:在查询中包含详细信息,以获得更相关的答案参数模糊,模型无法给出明确具体的方案无输出格式与风格要求,礼貌程度有限上下文缺失,未说明身份/对象,无法适配沟通场景Tips:明确角色定位(Who)具体任务目标(What)必要背景信息(Why)格式/语气要求(How)关键 据指标(When/Where)一、撰写清晰的指令:使用分隔符标识输入的不同部分Tips:加入明确的分隔符区分输入
28、中的不同部分,如“原文”、“待插入段”等可以使用标签作为分隔符包裹字段,如公司承诺统一指令与输入内容中对分隔符的描述,如:将X插入Y中:X:abcY:def缺少明确的分隔符标识不同字段一、撰写清晰的指令:提供示例Tips:对于内容与格式要求相对抽象化、难以直接描述的问题,可以通过示例表达需求提供尽可能多的示例,示例过少会限制回复的多样性,陷入给定示例的特定模式二、提供参考资料Tips可提供的资料包括:技术类任务:提供核心概念、原理说明行业分析类任务:提供市场 据、公司案例学术类任务:提供研究论文、实验 据趋势预测类任务:提供历史 据、专家观点对于知识类问答模型可能存在幻觉三、分解复杂问题Tip
29、s任务分解从宏观到微观,先从宏观上拆分出骨干子问题,再从微观上针对每个子问题继续拆分或解决中间步骤(如生成的标题结构)如不符合预期,可以人工干预加以修正结构松散,缺乏逻辑和层次化关系重要板块缺失,缺少未来工作与总结四、使用外部工具Tips可以借助代码辅助完成 值计算等推理类问题DeepSeek工具调用背后的机制不是很明确,建议本地化运行加以确认结构松散,缺乏逻辑和层次化关系精度不够导致最终计算结果错误相同程序,模型输出的错误结果五、给模型时间思考TipsChatGPT建议的反思式提示未必对DeepSeek有效,提示策略也在随着模型的改变而改变模型可能对于自身结果存在较大的倾向性,泛化的反馈难以
30、发现问题明确的反馈又需要用户亲自验证,限制了该策略的有效性领域应用:RAG vs.SFT领域应用Prompt工程判断和目标的差距RAG检索增强生成SFT有指导微调知识不足风格不对RAG 检索增强生成检索器https:/www.ml6.eu/blogpost/leveraging-llms-on-your-domain-specific-knowledge-base 相关文档查询特定数据库问题提问检索器问题+生成大模型作为生成器答案智能体(Agents)工具学习向量数据库人工智能驱动的科学研究具身智能单体智能Autonomous Agents组织协作与对抗社会模拟群体智能Agents自然语言处理
31、正在由 面向自然语言的处理 转变为 基于自然语言的智能小型化个性化角色化定制化隐私性安全性推广大模型应用HIT-SCIR 大模型方向规划应用领域功能增强模型训练能力增强金融医疗教育航天智能体具身智能决策机情感个性化轻量化价值观对齐推理可解释性多模态鲁棒性攻击防御数据归因数据合成模型架构设计增量预训练“活字”对话大模型自主研发的开源可商用大规模预训练语言模型https:/ 更好的指令遵循能力,支持生成和理解代码以及表格 安全性指标达到84.4%,甚至超越了ChatGPT(81.9%)活字2.0:基于活字1.0,通过人类反馈的强化学习(RLHF)训练 回答更丰富,更符合人类偏好 开源了首个中文RL
32、HF数据集活字3.0:基于Mixtral-8x7B进行中文扩词表和指令微调 高达32K上下文长度,支持读取更长的文本 具有丰富的中英文知识和强大的数学推理、代码生成能力珠算代码大模型大模型 1 比特量化,通过知识蒸馏,模型参数压缩90%以上,能力保留83%发表于机器学习领域顶会NeuraIPS(CCF A)提出基于去噪模型的投机解码方法,生成速度提升至2倍以上发表于NLP领域顶会EMNLP(Tsinghua-A,CCF B)优化预训练微调数据构建与筛选策略,Code与NL能力均达到同级最优提出多语言程序思维链策略,数值计算等推理能力相比ChatGPT提升4.6%发表于NLP领域顶会EMNLP(
33、Tsinghua-A,CCF B)PythonRC+JavaJSMultiPoT更轻更快更强更有用珠算代码大模型演示基于大模型的精神健康计算系统巧板 面向K12中小学生群体和家长、教师群体的日常共情对话陪伴 四大功能:共情陪伴、情绪疏导、角色化陪伴和中国优秀文化熏陶巧环 面向轻度心理疾病的青少年和心理咨询师初期训练的心理咨询系统 基于心理学引导策略进行心理疾病溯因分析“本草”医学大模型技术成果发表5篇论文、论文累计他引超200次、申请7项专利、申请1项软著 中国首个医学大模型 首次提出知识微调(Knowledge-tuning)方法,被讯飞、华为、腾讯等行业大模型广泛采用 在GitHub获得超
34、过4.6K+星标 入选中国大模型TOP70榜单第27名,仅有的3个高校大模型之一 德本咨询(DBC)、中国社会科学院信息化研究中心(CIS)、互联网周刊(CIW)等组织严格评选并发布了“2023中国大模型TOP70”榜单人机融合医疗会诊平台理论创新:辩论式复杂问题决策机理论技术创新:面向诊疗的专病大模型 面向诊疗复杂问题决策的多智能体协同技术 面向可解释性增强的多智能体自组织系统人机融合会诊人类医生会诊国家重点研发计划项目,在临床诊断测试中实现人机融合组超过全人类医生组,30多家医院试用软硬一体机器脑系统基于自研的具身规划模型、具身执行模型,构建了模块化、高扩展、可通用的机器脑软件系统同时设计
35、了配备关键传感器和计算单元的硬件头部系统,可安装于机械臂、人形机器人、轮式机器人等各类机器人上具身感知具身规划具身执行实现机器脑在各场景、各类机器人上的无缝迁移机器脑系统效果展示展厅机器人机器脑亮相哈尔滨亚冬会机器脑自主完成长序列复杂任务乘电梯下楼取咖啡人工智能未来发展方向自然语言处理的发展历史小规模专家知识19501990浅层机器学习算法19902010深度学习2010201720232024大模型预训练语言模型201820232025?推理?通往AGI之路以大语言模型为基础,拓展语言之外的认知能力Bisk等人(2020)将语言处理划分为5级“世界范围”(World Scope,WS)WS5
36、社会:自组织WS4具身:与物理世界互动WS3多模态:听觉、视觉WS2网络文本数据WS1小规模语料库现在未来早期非交互式交互式Level 5OrganizationsLevel 4InnovatorsLevel 3AgentsLevel 2ReasonersLevel 1ChatbotsOpenAI认为实现AGI的5个阶段https:/ 已成为人工智能的基石DeepSeek-R1模型 的核心贡献 只用RL习得推理能力:如何获得数学和编程以外的推理能力?极致的模型架构优化:Transformer是最优的模型架构么?开源模型及蒸馏模型:训练代码以及数据是否开源?自然语言处理正在由 面向自然语言的处理 转变为 基于自然语言的智能未来方向:模型是否以及如何具有 创新 能力?哈工大计算学部人工智能学院(https:/