《计算机行业深度报告:DeepSeek惊艳世界算力与应用将迎来结构性变化-250204(18页).pdf》由会员分享,可在线阅读,更多相关《计算机行业深度报告:DeepSeek惊艳世界算力与应用将迎来结构性变化-250204(18页).pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。计算机行业 行业研究|深度报告 DeepSeek 近期成为科技圈最炙手可热的明星企业:近期成为科技圈最炙手可热的明星企业:DeepSeek 近期分别发布大模型 DeepSeek-v3 和推理模型 R1,前者在大模型主流榜单的开源模型中位列榜首,并与世界上最先进的闭源模型不分伯仲;后者性能对标 OpenAI 的 o1 正式版,在数学、代码和自然语言推理等任务上表现卓越。以上两个模型均通过算法和架构的创新,大幅降低了训练成本和推理成本,为 AI 技术的普及与
2、创新作出了卓越的贡献。DeepSeek 相关模型自从推出后,立刻占据全球科技头条并引发巨大关注,我们认为,DeepSeek 呈现出的算法创新、性能表现、开源属性等多重因素,将对 AI 应用与算力行业产生深远的影响。DeepSeek 在模型训练与推理中采用了多项技术在模型训练与推理中采用了多项技术创新创新:DeepSeek-V3 实现了多项工程技术上的创新,包括通过 FP8 精度训练、DualPipe 双向流水线等技术降低训练成本,通过优化 MoE 负载均衡、多头潜在注意力机制(MLA)来降低推理成本,并通过多 Token 预测(MTP)以及模型蒸馏来进一步提升模型性能,最终用极低的成本完成了训
3、练过程,与此同时推理的成本也较其他模型有大幅下降。而 R1-Zero 的目标是验证纯 RL 能否激发模型的自主推理能力,探索无监督强化学习的潜力,而 R1则通过数据引导+多阶段优化,平衡推理性能和实用价值,目标是打造更符合人类偏好的通用推理模型,两个模型均实现了较为理想的效果。DeepSeek 将对将对 AI 算力与应用产生结构性影响:算力与应用产生结构性影响:由于 DeepSeek-V3、R1 等模型通过算法与架构层面的多重创新大幅降低了训练端算力消耗,不过我们认为,在各模型公司仍致力于训练出性能更强大模型的目标指引下,庞大的训练集群将仍然被产业所追逐,训练算力长期看仍有前景和空间。而推理算
4、力的需求空间则更为乐观,我们认为推理成本的大幅下降将带来需求更大幅度的增长,而在这样的过程中,算力需求结构可能将会改变,而美国如果进一步收紧 AI 芯片供应,则可能对国产芯片形成利好。而另一方面,此前 AI 应用的普及及其商业化还存在一定的困难,一方面在于模型性能仍然没法满足众多场景的需求,尤其是在推理能力和多模态环节,另一方面则是闭源模型性能领先但 API 调用的成本过高,影响了 AI 应用的大范围普及,我们认为,DeepSeek 的强推理能力、低算力成本、开源属性,使得其对 AI 应用的普及有望发挥重要的作用。我们认为 AI 应用正逐步进入落地期,有望呈现较多的投资机遇,建议投资者关注行业
5、整体性机会,而国产算力及推理算力服务企业,也将从 AI 应用繁荣中受益。B 端企业级应用,建议关注金山办公、鼎捷数智、泛微网络、汉得信息、软通动力、上海钢联、合合信息、新致软件、每日互动。垂直行业应用领域有较强优势的企业,建议关注科大讯飞、焦点科技、润达医疗、同花顺、卫宁健康。AI 工具类应用,建议关注彩讯股份、虹软科技、万兴科技、福昕软件。国产算力及算力服务企业,建议关注海光信息、寒武纪-U、中科曙光、云赛智联、安博通、首都在线、优刻得-W。风险提示风险提示 技术落地不及预期;政策落地不及预期;美国进一步制裁风险;竞争激烈导致变现能力下降。投资建议与投资标的 核心观点 国家/地区 中国 行业
6、 计算机行业 报告发布日期 2025 年 02 月 04 日 浦俊懿 021-63325888*6106 执业证书编号:S0860514050004 字节加速 AI 落地、小米、理想All in AI 2024-12-29 AI 应用前景广阔、自主可控已是大趋势:计算机行业 2025 年度投资策略 2024-12-27 AI 应用落地曙光已现 2024-11-18 DeepSeek 惊艳世界,算力与应用将迎来结构性变化 看好(维持)计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代
7、表联系。并请阅读本证券研究报告最后一页的免责申明。2 目 录 引言.4 一、DeepSeek-V3、R1 模型推出后“火”遍全球.4 1.1 DeepSeek-V3 性能表现不输全球顶尖模型.4 1.2 R1 模型实现了比肩 OpenAI o1 的推理能力.5 1.3 DeepSeek-V3、R1 模型在产业中引发巨大反响.7 二、DeepSeek 模型训练与推理技术创新解析.8 2.1 DeepSeek-V3 模型采用了多项创新技术.8 2.2 R1-Zero 与 R1 模型尝试强化学习边界.10 三、DeepSeek 将对 AI 算力与应用产生结构性影响.11 3.1 DeepSeek 模
8、型有望引发算力需求与市场结构变化.11 3.2 AI 应用有望在高性能、低成本模型支撑下繁荣.13 四、投资建议与投资标的.15 五、风险提示五、风险提示.16 计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。3 图表目录 图 1:DeepSeek-V3 在多项评测中成绩领先.4 图 2:DeepSeek-V3 在各类测试集上的表现.5 图 3:DeepSeek-V3 API 服务价格具备很强的吸引力.5 图 4:DeepSeek
9、-R1 在推理能力上比肩 OpenAI o1.6 图 5:基于 R1 蒸馏的小模型性能超越 OpenAI o1-mini.6 图 6:DeepSeek-R1 API 服务定价继续大幅低于 OpenAI o1.7 图 7:DeepSeek-V3 模型训练仅需要 278.8 万 GPU 小时训练资源.7 图 8:DeepSeek 成为全球增速最快的 AI 应用.8 图 9:DeepSeek 发布后下载量增长迅猛.8 图 10:DeepSeek-V3 模型基本架构.8 图 11:DeepSeek-V3 采用 FP8 为主的混合精度训练方法.9 图 12:多 Token 预测(MTP)模块结构示意.1
10、0 图 13:R1-Zero 由基础模型直接进行强化学习训练而产生.10 图 14:DeepSeek-R1-Zero 训练期间 AIME 准确率.11 图 15:DeepSeek-R1-Zero 在 RL 过程中的平均响应长度(输出长度不断增加).11 图 17:“杰文斯悖论”指出成本下降将刺激资源需求更大增长.12 图 18:硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1&V3 推理服务.13 图 19:AI 产品榜全球 Web 端访问前 15 情况(24 年 12 月).14 图 20:AI 产品榜全球 APP 端访问前 15 情况(24 年 12 月).14 图 21:
11、2024 年全球 AI 产品付费用户规模.14 图 22:short-CoT 模式下,k1.5 模型多方面能力领先.15 图 23:long-CoT 模式下,k1.5 模型多方面能力比肩 o1.15 图 24:Qwen2.5-Max 测试结果领先各类指令模型.15 图 25:Qwen2.5-Max 表现优于各类开源模型.15 计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。4 引言引言 DeepSeek 近期分别发布大模型 Dee
12、pSeek-v3 和推理模型 R1,前者在大模型主流榜单的开源模型中位列榜首,并与世界上最先进的闭源模型不分伯仲;后者性能对标 OpenAI 的 o1 正式版,在数学、代码和自然语言推理等任务上表现卓越。以上两个模型均通过算法和架构的创新,大幅降低了训练成本和推理成本,为 AI 技术的普及与创新作出了卓越的贡献。我们认为,DeepSeek 呈现出的算法创新、性能表现、开源属性等多重因素,将对 AI 应用与算力行业产生深远的影响。一、一、DeepSeek-V3、R1 模型推出后“火”遍全球模型推出后“火”遍全球 1.1 DeepSeek-V3 性能表现不输全球顶尖模型 2024 年 12 月 2
13、6 日,杭州深度求索(DeepSeek AI)发布 DeepSeek-V3 并同步开源,据介绍,DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。图 1:DeepSeek-V3 在多项评测中成绩领先 数据来源:DeepSeek 微信公众号,东方证券研究所 具体而言,DeepSeek-V3 在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的
14、模型 Anthropic 公司于 2024 年 10 月发布的Claude-3.5-Sonnet-1022;在长文本评测(DROP、FRAMES 和 LongBench v2)方面,V3 平均表现也超越其他模型。在算法类代码场景(Codeforces),V3 远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。而在美国数学竞赛(AIME 2024,MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型。计算机行业深度报告 DeepSeek惊
15、艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。5 图 2:DeepSeek-V3 在各类测试集上的表现 数据来源:DeepSeek 微信公众号,东方证券研究所 另外,DeepSeek-V3 通过算法和工程上的创新,将生成吐字速度从 20TPS(Transactions Per Second 每秒完成的事务数量)大幅提高至 60TPS,相比 V2.5 模型实现了 3 倍的提升,可以带来更加流畅的使用体验。同时,模型 API 服务定价也将调整为每百万输入 tokens
16、0.5 元(缓存命中)/2 元(缓存未命中),每百万输出 tokens 8 元,因此,V3 模型在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。图 3:DeepSeek-V3 API 服务价格具备很强的吸引力 数据来源:DeepSeek 微信公众号,东方证券研究所 1.2 R1 模型实现了比肩 OpenAI o1 的推理能力 2025 年 1 月 20 日,DeepSeek 再次扔出重磅炸弹,发布了推理模型 R1,该模型在后训练阶段大规模使用了强化学习技术,在仅仅使用极少标注数据的情况下,极大提升了模型推理能力,在数据、代码、自然语言推理等领域均实现了比肩 OpenAI o1
17、 模型的能力。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。6 图 4:DeepSeek-R1 在推理能力上比肩 OpenAI o1 数据来源:DeepSeek 微信公众号,东方证券研究所 DeepSeek 不仅开源了 R1-Zero 和 R1 两个 660B 模型,还通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
18、同时,DeepSeek 还修改了产品协议,支持用户进行“模型蒸馏”,即允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。图 5:基于 R1 蒸馏的小模型性能超越 OpenAI o1-mini 数据来源:DeepSeek 微信公众号,东方证券研究所 除了开源相关模型外,DeepSeek-R1 上线 API,对用户开放思维链输出,服务定价为每百万输入 tokens 1 元(缓存命中)/4 元(缓存未命中),每百万输出 tokens 16 元,与 OpenAI o1 API 调用相比,继续保持超高的性价比。与此同时,DeepSeek 还上线了 APP 并更新官网,打开“深度思考”模式,即可调用最
19、新版 DeepSeek-R1 完成各类推理任务。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。7 图 6:DeepSeek-R1 API 服务定价继续大幅低于 OpenAI o1 数据来源:DeepSeek 微信公众号,东方证券研究所 1.3 DeepSeek-V3、R1 模型在产业中引发巨大反响 DeepSeek-V3、R1 两款模型最让人印象深刻的不仅在于其比肩业内最佳表现的性能,更在于超低的训练成本:DeepSeek 在
20、V3 相关的论文中披露,V3 仅仅使用 2048 块 H800 GPU 训练 2 个月的时间,共消耗 278.8 万 GPU 小时,而按照 OpenAI 创始成员之一 Andrej Karpathy 介绍,Llama3-405B 则消耗了 3080 万 GPU 小时,是 V3 的 11 倍;如果按照 H800 GPU 每小时 2 美金的租赁费用计算,意味着 V3 模型正式训练仅仅需要 557.6 万美金,而此前同等性能的模型则需要 0.6-1 亿美金。而 R1 模型是在 DeepSeek V3 的基础上,通过引入大规模强化学习(Reinforcement Learning)和多阶段训练,进一步
21、提升推理能力的模型,据专家判断,在 V3 的基础上生产 R1 模型的成本可能非常低廉。图 7:DeepSeek-V3 模型训练仅需要 278.8 万 GPU 小时训练资源 数据来源:DeepSeek-AIDeepSeek-V3 Technical Report,东方证券研究所 DeepSeek-V3、R1 两款模型的推出,犹如在 AI 行业投入了两颗重磅炸弹,DeepSeek 迅速成为科技产业最耀眼的明星企业,并引发了巨大的讨论与关注。相较于各科技巨头不断构建更大规模算力集群来训练更强大的模型,DeepSeek 向大家展示了通过精巧的算法优化,可以在低一个数量级算力消耗的情况下生产出顶尖性能的
22、模型。DeepSeek 已经成为众多科技领域领袖重点关注的对象:微软 CEO 纳德拉在财报电话会议上称DeepSeek“有一些真的创新”,并透露 R1 模型已经可以通过微软的 AI 平台获取;Meta CEO扎克伯格表示 Meta 将 DeepSeek 视为竞争对手并正在学习;ASML CEO 则在接受采访时 表示DeepSeek 这样的低成本模型将带来更多而非更少的 AI 芯片需求;Anthropic 创始人认为 V3 是真正的创新所在;人工智能专家吴恩达也发文认为中美 AI 差距正在迅速缩小。OpenAI CEO 山姆奥特曼更是在发布 o3-mini 后罕见地承认“在开源上 OpenAI
23、站在了历史的错误一方”。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。8 在超高的热度下,DeepSeek 成为了全球增速最快的 AI 应用,仅上线 18 天日活就达到了 1500 万,而 ChatGPT 过 1500 万花了 244 天,增速是 ChatGPT 的 13 倍;1 月 26 日同时登顶苹果App Store 和谷歌 Play Store 全球下载榜首,目前仍然在 100 多个多家/地区维持领先。图 8:DeepS
24、eek 成为全球增速最快的 AI 应用 图 9:DeepSeek 发布后下载量增长迅猛 数据来源:AI 产品榜,东方证券研究所 数据来源:invest wallstreet 微信公众号,东方证券研究所 二、二、DeepSeek 模型训练与推理技术创新解析模型训练与推理技术创新解析 2.1 DeepSeek-V3 模型采用了多项创新技术 据披露,DeepSeek-V3 为自研 MoE 模型,总参数 671B 参数,而每项任务仅激活 37B,在 14.8T token 上进行了预训练。DeepSeek-V3 实现了多项工程技术上的创新,包括通过 FP8 精度训练、DualPipe双向流水线等技术降
25、低训练成本,通过优化MoE负载均衡、多头潜在注意力机制(MLA)来降低推理成本,并通过多 Token 预测(MTP)以及模型蒸馏来进一步提升模型性能,最终取得了令人惊艳的效果。图 10:DeepSeek-V3 模型基本架构 数据来源:DeepSeek-AIDeepSeek-V3 Technical Report,东方证券研究所 计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。9 从训练的角度,FP8 精度训练、DualPipe 双
26、向流水线以及高效的跨节点通信等技术是工程领域创新的重点。1)FP8精度训练精度训练:DeepSeek-V3将大部分计算密集型操作(如矩阵乘法)使用FP8精度进行,同时保留一些关键操作(如嵌入层、输出头、归一化操作等)的高精度(BF16 或 FP32),以确保训练的数值稳定性。在此基础上,进一步叠加细粒度量化、高精度累加、在线量化、低精度存储和通信等技术方法,成功实现了高效的 FP8 精度训练。这些创新不仅显著提高了训练速度和效率,还保持了模型的高性能,为大规模语言模型的训练提供了新的解决方案。2)DualPipe 双向流水线双向流水线:核心思想是将模型的不同层分配到不同的 GPU 上进行并行训
27、练,并通过双向流水线调度来同时处理正向传播和反向传播。具体来说,它允许从流水线的两端同时输入微批次(micro-batches),从而最大化地利用计算资源并减少通信开销,该方法实现了高效的模型训练,为大规模分布式训练提供了强大的支持。3)跨节点通信技术跨节点通信技术:DeepSeek-V3 通过高效的跨节点全对全通信内核、通信和计算的重叠、定制化通信内核、低精度通信以及对未来硬件设计的建议,显著提高了跨节点通信的效率。这些技术不仅减少了通信开销,还提高了整体训练效率,为大规模分布式训练提供了强大的支持。图 11:DeepSeek-V3 采用 FP8 为主的混合精度训练方法 数据来源:DeepS
28、eek-AIDeepSeek-V3 Technical Report,东方证券研究所 而在推理领域,DeepSeek-V3混合专家系统(MoE)和多头潜在注意力机制(MLA)是获得低成本、高质量推理结果的重要原因。1)混合专家系统(混合专家系统(MoE):MoE 是一种将多个小型专家模型组合起来,共同完成任务的架构,MoE 可以显著增加模型的参数数量,而无需像稠密模型那样增加计算量。具体而言,V3 模型每项任务仅激活 370 亿个参数,大大降低了计算成本,同时保持了高性能。2)多头潜在注意力(多头潜在注意力(MLA):多头潜在注意力机制增强了模型处理细微关系和同时管理多个输入的能力,使其对需要
29、上下文深度的任务非常有效。如果以听一场演讲来类比,传统的注意力机制需要记住每个时间点的所有细节(就像记录每一秒的录音),而 MLA 则只提取关键信息(就像只记录每个重点句子),这样大大降低需要记忆的信息。此外,DeepSeek-V3 还通过多令牌预测(MTP)和模型蒸馏技术提高了模型的性能。1)多令牌预测(MTP):传统的语言模型通常只预测下一个令牌(token),而 MTP 则是在每个位置上,让模型预测多个未来的标记,从而提高模型的性能和效率。它不仅增加了训练信号的密度,还使模型能够更好地规划未来的表示,从而生成更连贯和准确的文本。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎
30、来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。10 2)模型蒸馏技术:模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求。DeepSeek 利用强大的教师(R1)模型生成或优化数据,帮助小模型更高效地学习,此外,DeepSeek 通过监督微调(SFT)的方式,将教师模型的知识迁移到学生模型中。图 12:多 Token 预测(MTP)模块结构
31、示意 数据来源:DeepSeek-AIDeepSeek-V3 Technical Report,东方证券研究所 2.2 R1-Zero 与 R1 模型尝试强化学习边界 为了获得推理能力更强的模型,DeepSeek 相继开发了 R1-Zero 和 R1 模型,其中 R1-Zero 尝试了不使用监督微调(SFT)、仅采用大规模强化学习(RL)的方式,而 R1 则在强化学习之前引入冷启动阶段,通过少量人工设计的长链思维(CoT)数据对基础模型进行初步监督微调,从而为强化学习提供更稳定、可读性更强的初始策略。R1-Zero直接在基础模型上应用强化学习而不使用任何SFT数据,为了训练R1-Zero,De
32、epSeek采用了一种基于规则的奖励系统(而非神经奖励模型),该系统包含准确率奖励和格式奖励,其中前者负责评估响应是否正确,而后者确保模型在生成响应时遵循特定的结构要求。图 13:R1-Zero 由基础模型直接进行强化学习训练而产生 数据来源:图灵人工智能微信公众号,东方证券研究所 而随着 RL 训练的持续推进,DeepSeek-R1-Zero 的性能呈现出稳步提升的趋势。此外,通过延长测试时间的计算,DeepSeek-R1-Zero 自然而然地获得了解决更复杂推理任务的能力,从生成数百个 token 到数千个 token,模型得以更深入地探索和优化其思维过程。模型的思考过程会不断与最终的正确
33、率奖励相互作用。当模型最初得出的答案并未得到较高奖励时,它会在后续的推理中回头反省,尝试补充或修正先前的思路,从而获得更高的奖励,通过这样的方式,模型在没有外部指导的情况下持续自主学习与迭代,最终具备了强大的推理能力。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。11 图 14:DeepSeek-R1-Zero 训练期间 AIME 准确率 图 15:DeepSeek-R1-Zero 在 RL 过程中的平均响应长度(输出长度不断增
34、加)数据来源:DeepSeek-AIDeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,东方证券研究所 数据来源:DeepSeek-AIDeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,东方证券研究所 R1-Zero 的目标是验证纯 RL 能否激发模型的自主推理能力,探索无监督强化学习的潜力,而 R1 则通过数据引导+多阶段优化,平衡推理性能和实用价值,目标是打造更符合人
35、类偏好的通用推理模型。R1 的训练过程分为 4 个阶段:1)阶段 1(冷启动):使用少量高质量的 CoT 数据对基础模型进行微调,作为 RL 训练的初始起点,解决纯 RL 冷启动不稳定问题;2)阶段 2(推理导向的强化学习):在冷启动模型上进行 RL 训练,应用 GRPO 算法,结合规则奖励和语言一致性奖励,优化模型在数学、代码、逻辑等任务上的推理能力;3)阶段 3(拒绝采样+监督微调):使用上一阶段的 RL 模型进行拒绝采样,生成高质量的推理和非推理数据,并用这些数据对模型进行微调。侧重点是提升模型的综合能力,使其在写作、事实问答等多种任务上表现良好。4)阶段 4(全场景强化学习):在上一阶
36、段 SFT 模型的基础上进行 RL 训练,侧重点是使模型在所有场景下都能表现良好,包括推理任务和非推理任务,对齐人类偏好,优化模型的实用性、无害性和多任务能力。此外,为了获得更高效的小模型,并使其具有 DeekSeek-R1 的推理能力,DeepSeek 还对 Qwen 和 Llama 等开源模型进行了微调,使用的是上面 SFT DeepSeek-R1 的 80 万数据。研究结果表明,这种直接蒸馏方法显著提高了小模型的推理能力。在这里使用的基座模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和
37、 Llama-3.3-70B-Instruct。三、三、DeepSeek 将对将对 AI 算力与应用产生结构性影响算力与应用产生结构性影响 3.1 DeepSeek 模型有望引发算力需求与市场结构变化 由于 DeepSeek-V3、R1 等模型通过算法与架构层面的多重创新大幅降低了训练端算力消耗,使得投资者对继续斥巨资构建超大规模算力中心的合理性和前景产生质疑,这导致了算力产业链相关企业在 R1 模型发布后暴跌,其中英伟达股价 1 月 27 日下跌 16.97%,市值蒸发约 5900 亿美金,创下美国上市公司单日市值损失记录,而博通公司股价跌幅一度接近 20%,收盘时下跌17.4%,台积电股价
38、也大跌 13.3%。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。12 训练算力长期看仍有前景和空间训练算力长期看仍有前景和空间。从训练算力的角度,我们认为各模型厂商大概率将借鉴DeepSeek 公开的一系列优化方法,如 FP8 精度训练、跨节点通信、DualPipe 双向流水线与自身模型训练结合,探索更高效的模型训练方式。不过,正如 Anthropic CEO Dario 所述:“训练越来越智能的模型的经济价值是如此之大,以至
39、于任何成本收益几乎都会立即被吃掉它们被重新投入到制作更智能的模型中,而我们最初计划花费的成本与此相同”。因此,在各模型公司仍致力于训练出性能更强大模型的目标指引下,庞大的训练集群将仍然被产业所追逐,因此,我们认为,训练算力需求从长期来看依然值得乐观。“杰文斯悖论杰文斯悖论”有望在推理算力上再度印证有望在推理算力上再度印证。而从另一方面来看,开源模型和更低的推理成本将有助于应用的繁荣,从而对推理算力形成更加积极的影响。微软CEO纳德拉在社交平台上表示,“杰文斯悖论(Jevons Paradox)再次上演!随着 AI 变得更加高效和普及,我们将看到它的使用量激增,最终成为一种我们永远无法满足的商品
40、。”杰文斯悖论是一条知名的经济学理论,指当技术的进步导致某种资源的使用更加高效时,消费者或企业对它的使用需求可能会大幅增加,虽然其使用成本降低了,但总消耗最终反而会上升。这样的情况在当前的蒸汽机时代和内燃机时代都曾出现过,我们认为,随着推理成本的下降,AI 应用的广阔需求有望被激发,推理算力将具备更大的增长空间。图 16:“杰文斯悖论”指出成本下降将刺激资源需求更大增长 数据来源:华尔街见闻,东方证券研究所 算力芯片行业格局算力芯片行业格局是否生变值得关注是否生变值得关注。此前,英伟达凭借领先的计算与互联性能、强大的 CUDA生态,在 AI 算力芯片市场占据主导地位,但 DeepSeek 在跨
41、节点通信方案上的优化,以及推理阶段的算力需求爆发潜力,让 AI 芯片厂商看到了突破口与希望。AMD 在 1 月 25 日宣布已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上;2 月 1 日,硅基流动与华为云联合推出基于昇腾云的 DeepSeek-R1&V3 推理服务,可获得持平全球高端 GPU 部署模型的效果,而 2 月 2日,DeepSeek 两款模型完成海光 DCU 适配并正式上线,意味着国产芯片与 DeepSeek 系列模型实现了无缝衔接。我们认为,DeepSeek 模型的开源性以及对芯片性能与生态要求的下降,可能会对 AI 芯片行业的格局产生一定
42、影响。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。13 图 17:硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1&V3 推理服务 数据来源:硅基流动微信公众号,东方证券研究所 此外,DeepSeek 在使用英伟达 A100、H800 等性能受限的芯片基础上训练出 V3、R1 等模型,使得是否要对中国进一步进行芯片限售成为热门话题。例如,Anthropic CEO 在万字长文中就提出要对中国进行更严格的芯片限制
43、,而彭博社也援引知情人士报道称,美国正考虑进一步收紧英伟达(NVIDIA)芯片对华出口限制,可能将限制范围扩大至英伟达针对中国市场特供的符合出口管制规则的 H20芯片。我们认为,如果英伟达等美国 AI芯片进一步受到限制,则可能对国产芯片的份额与需求产生进一步的影响。3.2 AI 应用有望在高性能、低成本模型支撑下繁荣 自ChatGPT问世以来,无论是大模型公司还是各类应用型企业均推出各类基于大模型的应用,寻找用户增长与商业闭环机会。近期我们关注到,无论是从产品用户数增长的角度,还是海外 B 端企业 AI 应用商业化落地的角度,均呈现积极的成果,基于大模型的商业化曙光已现。从各类产品用户数及访问
44、量来看,ChatGPT 网站端 24 年 12 月 3.4 亿用户产生 38 亿次的访问量,APP 端访问次数则超过 3 亿次,月度总访问次数超过 40 亿次,保持着明显的领先优势。在 Web端访问前 15 榜单来看,中国仅有纳米 AI 位列其中,而在 APP 端,则有豆包、Talkie AI 和 Kimi助手三款,其中豆包、Talkie AI 均位列前五,显示出中国 AI 应用在全球占有重要地位。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后
45、一页的免责申明。14 图 18:AI 产品榜全球 Web 端访问前 15 情况(24 年 12 月)图 19:AI 产品榜全球 APP 端访问前 15 情况(24 年 12 月)数据来源:AI 产品榜,东方证券研究所 数据来源:AI 产品榜,东方证券研究所 而伴随着 AI 应用在日常生活中发挥着越来越重要的作用,各类 AI 应用的付费用户也在增长,目前来看,2024 年付费用户最多的产品是微软的 Copilot,达到了 5574 万,百度文库紧随其后,达到 4000 万,而 Canva 和 ChatGPT 付费用户也超过了千万。此外,大模型应用 Claude、智能文档与协作平台 Notion、
46、AI 搜索应用 Perplexity、AI Coding 应用 Cursor 以及智能陪伴应用Character AI 也都榜上有名。用户愿意付费往往意味着产品已经触及到了其真正的需求,付费行为跨越了感兴趣和真正需要之间的鸿沟,是未来 AI 产品货币化的重要方向。图 20:2024 年全球 AI 产品付费用户规模 数据来源:AI 产品榜,东方证券研究所 我们认为,此前 AI 应用的普及及其商业化还存在一定的困难,一方面在于模型性能仍然没法满足众多场景的需求,尤其是在推理能力和多模态环节,另一方面则是闭源模型性能领先但 API 调用的成本过高,影响了 AI 应用的大范围普及,我们认为,DeepS
47、eek 的强推理能力、低算力成本、开源属性性有望推动 AI 应用的繁荣。此外,不仅是 DeepSeek 系列模型,国内其他模型公司近期发布产品也取得了性能领先。如 1 月 20 日,月之暗面推出的全新 SOTA 模型 Kimi k1.5 多模态思考模型,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%;在 long-CoT 模式下,k1.5 推理能力达到长思考 SOTA 模型 OpenAI o1 正式版的水平。计算机行业深度报告 De
48、epSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。15 图 21:short-CoT 模式下,k1.5 模型多方面能力领先 图 22:long-CoT 模式下,k1.5 模型多方面能力比肩 o1 数据来源:IT 之家,东方证券研究所 数据来源:IT 之家,东方证券研究所 1 月 29 日,阿里云通义千问旗舰版模型 Qwen2.5-Max 正式升级发布,据介绍,Qwen2.5-Max 模型是阿里云通义团队对 MoE 模型的最新探索成果,展现出极强劲的综合性能
49、,阿里云官微发文称,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、DeepSeek-V3 及Llama-3.1-405B。图 23:Qwen2.5-Max 测试结果领先各类指令模型 图 24:Qwen2.5-Max 表现优于各类开源模型 数据来源:芯智讯,东方证券研究所 数据来源:芯智讯,东方证券研究所 我们认为,DeepSeek-V3、R1,月之暗面 Kimi k1.5,以及 Qwen2.5-Max 等国产模型的集体性突破,为国内 AI 应用的发展与繁荣打下良好的基础,未来拥有场景和用户资源的厂商可以以更好的性能、更低的成本提供产品和服务,
50、与此同时,更开源的模型和更低的成本也意味着 AI 应用企业的商业模型将迎来更加积极正面的变化。四、投资建议与投资标的四、投资建议与投资标的 我们认为 AI 应用正逐步进入落地期,有望呈现较多的投资机遇,建议投资者关注行业整体性机会,而国产算力及推理算力服务企业,也将从 AI 应用繁荣中受益。B 端企业级应用,建议关注金山办公(688111,增持)、鼎捷数智(300378,未评级)、泛微网络(603039,买入)、汉得信息(300170,未评级)、软通动力(301236,未评级)、上海钢联(300226,增持)、合合信息(688615,未评级)、新致软件(688590,买入)、每日互动(3007
51、66,未评级)。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。16 垂直行业应用领域有较强优势的企业,建议关注科大讯飞(002230,买入)、焦点科技(002315,未评级)、润达医疗(603108,买入)、同花顺(300033,未评级)、卫宁健康(300253,未评级)。AI 工具类应用,建议关注彩讯股份(300634,买入)、虹软科技(688088,未评级)、万兴科技(300624,未评级)、福昕软件(688095,未评级)
52、。国产算力及算力服务企业,建议关注海光信息(688041,买入)、寒武纪-U(688256,未评级)、云赛智联(600602,未评级)、安博通(688168,未评级)、中科曙光(603019,买入)、首都在线(300846,未评级)、优刻得-W(688158,未评级)。五、风险提示五、风险提示 技术落地不及预期技术落地不及预期:DeepSeek 为代表的模型虽然在性能和成本上有显著提升,但仍存在大模型技术无法支撑 AI 应用在部分场景落地的风险;政策落地不及预期政策落地不及预期:政策是 AI 产业发展的重要因素,如果政策支持力度不及预期,也会对行业发展带来偏负面影响;美国进一步制裁风险美国进一
53、步制裁风险:如果美国进一步收紧芯片供应,仍将对国内大模型训练产生负面影响;竞争激烈导致变现能力下降竞争激烈导致变现能力下降风险风险:目前 AI 产业竞争激烈,如果各厂商由于竞争进一步降低产品定价,则对 AI 产业的商业化形成影响。计算机行业深度报告 DeepSeek惊艳世界,算力与应用将迎来结构性变化 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。17 分析师申明 每位负责撰写本研究报告全部或部分内容的研究分析师在此作以下声明:每位负责撰写本研究报告全部或部分内容的研究分析师在此作以下声明:分析师在本
54、报告中对所提及的证券或发行人发表的任何建议和观点均准确地反映了其个人对该证券或发行人的看法和判断;分析师薪酬的任何组成部分无论是在过去、现在及将来,均与其在本研究报告中所表述的具体建议或观点无任何直接或间接的关系。投资评级和相关定义 报告发布日后的 12个月内行业或公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为标普 500 指数);公司投资评级的量化标准公司投资评级的量化标准 买入:相对强于市场基准指数收益率 15%以上;增持:相对强于市场基准指数收益率 5%15%;中性:相对于市场基准指数收益率在-5%+5
55、%之间波动;减持:相对弱于市场基准指数收益率在-5%以下。未评级 由于在报告发出之时该股票不在本公司研究覆盖范围内,分析师基于当时对该股票的研究状况,未给予投资评级相关信息。暂停评级 根据监管制度及本公司相关规定,研究报告发布之时该投资对象可能与本公司存在潜在的利益冲突情形;亦或是研究报告发布当时该股票的价值和价格分析存在重大不确定性,缺乏足够的研究依据支持分析师给出明确投资评级;分析师在上述情况下暂停对该股票给予投资评级等信息,投资者需要注意在此报告发布之前曾给予该股票的投资评级、盈利预测及目标价格等信息不再有效。行业投资评级的量化标准行业投资评级的量化标准:看好:相对强于市场基准指数收益率
56、 5%以上;中性:相对于市场基准指数收益率在-5%+5%之间波动;看淡:相对于市场基准指数收益率在-5%以下。未评级:由于在报告发出之时该行业不在本公司研究覆盖范围内,分析师基于当时对该行业的研究状况,未给予投资评级等相关信息。暂停评级:由于研究报告发布当时该行业的投资价值分析存在重大不确定性,缺乏足够的研究依据支持分析师给出明确行业投资评级;分析师在上述情况下暂停对该行业给予投资评级信息,投资者需要注意在此报告发布之前曾给予该行业的投资评级信息不再有效。免责声明 本证券研究报告(以下简称“本报告”)由东方证券股份有限公司(以下简称“本公司”)制作及发布。本报告仅供本公司的客户使用。本公司不会
57、因接收人收到本报告而视其为本公司的当然客户。本报告的全体接收人应当采取必要措施防止本报告被转发给他人。本报告是基于本公司认为可靠的且目前已公开的信息撰写,本公司力求但不保证该信息的准确性和完整性,客户也不应该认为该信息是准确和完整的。同时,本公司不保证文中观点或陈述不会发生任何变更,在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的证券研究报告。本公司会适时更新我们的研究,但可能会因某些规定而无法做到。除了一些定期出版的证券研究报告之外,绝大多数证券研究报告是在分析师认为适当的时候不定期地发布。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议,也没有考虑到个别客户
58、特殊的投资目标、财务状况或需求。客户应考虑本报告中的任何意见或建议是否符合其特定状况,若有必要应寻求专家意见。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告中提及的投资价格和价值以及这些投资带来的收入可能会波动。过去的表现并不代表未来的表现,未来的回报也无法保证,投资者可能会损失本金。外汇汇率波动有可能对某些投资的价值或价格或来自这一投资的收入产生不良影响。那些涉及期货、期权及其它衍生工具的交易,因其包括重大的市场风险,因此并不适合所有投资者。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损
59、失负任何责任,投资者自主作出投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告主要以电子版形式分发,间或也会辅以印刷品形式分发,所有报告版权均归本公司所有。未经本公司事先书面协议授权,任何机构或个人不得以任何形式复制、转发或公开传播本报告的全部或部分内容。不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据,不得用于营利或用于未经允许的其它用途。经本公司事先书面协议授权刊载或转发的,被授权机构承担相关刊载或者转发责任。不得对本报告进行任何有悖原意的引用、删节和修改。提示客户及公众投资者慎重使用未经授权刊载或者转发的本公司证券研究报告,慎重使用公众媒体刊载的证券研究报告。HeadertTable_Address东方证券研究所 地址:上海市中山南路 318 号东方国际金融广场 26 楼 电话:传真:021-63325888 021-63326786 东方证券股份有限公司经相关主管机关核准具备证券投资咨询业务资格,据此开展发布证券研究报告业务。东方证券股份有限公司及其关联机构在法律许可的范围内正在或将要与本研究报告所分析的企业发展业务关系。因此,投资者应当考虑到本公司可能存在对报告的客观性产生影响的利益冲突,不应视本证券研究报告为作出投资决策的唯一因素。