1、 -1-2025 年 4 月 1 日 第2025 年 4 月 1 日 第1818期 总第 899 期期 总第 899 期 开源大模型开源大模型DeepSeek 实现三个实现三个“首次首次”应借助开源顺势推动应借助开源顺势推动AI 普惠化平权化发展普惠化平权化发展 近期,DeepSeek 凭借高性能、低成本特性迅速引爆市场,并因开源快速向全行业蔓延,成为 AI 领域的现象级产品。作为全球开源 AI 发展的新典范,DeepSeek 首次开辟大模型创新发展第二路径,在引爆新一轮关注的同时也成为大模型领域生态构建的全新基座,实现了从技术共享到生态重构的正向循环。大模型应用部署成本的降低,将有力推动相关
2、的软硬件产品及服务的大 -2-规模落地。建议充分把握 AI 大模型开源趋势,从技术提升、应用推广、生态繁荣等角度加快布局,推动 AI 普惠化、平权化发展。一、一、DeepSeek 是全球开源是全球开源 AI 大模型发展新典范大模型发展新典范 AI 开源较传统软件开源要求更多、挑战更大。开源较传统软件开源要求更多、挑战更大。与软件开源仅需公开源代码不同,大模型领域出现了训练数据、模型权重等将对大模型性能和输出结果产生重要影响的全新要素,使得 AI大模型开源远比传统软件开源复杂。2024 年 10 月,开放源代码促进会(OSI)面向全球发布了第一版开源 AI 标准,即 AI 开源必须同时满足代码完
3、整、模型参数公开、训练数据透明等三点要求,以确保模型可复现开源必须同时满足代码完整、模型参数公开、训练数据透明等三点要求,以确保模型可复现。一是一是需要开源完整代码,包括用于训练和运行 AI 的完整源代码,并展示数据处理和训练的规范,这与传统意义上的软件开源基本一致。二是二是需要公开模型参数,包括模型的权重和配臵。三是三是应维持训练数据透明,即必须提供训练数据的来源、处理方式和获取方式。此前大模型领域企业多以走纯闭源或此前大模型领域企业多以走纯闭源或“半开源半开源”路线为主。路线为主。坚持闭源路线的大模型厂商大多具有先发优势,例如 OpenAI 的GPT-4 系列模型、Anthropic 的
4、Claude 系列模型等。而此前大部 -3-分宣称“开源”的大模型实则为半开源“黑箱”,并不符合 OSI 对开源 AI 的最新要求。如 Meta 公司的 Llama 3 就只部分开源模型权重和模型结构,同时还在商用限制上要求月活超过 7 亿的下游产品必须申请许可证。仅有如非营利研究机构 AI2 发布的 OLMo 2模型等少数做到了模型权重、数据、代码和方法等全栈资源开源。DeepSeek 秉持开源精神践行秉持开源精神践行 AI 大模型开源准则。一是大模型开源准则。一是开放代码、文档、权重等内容的下载。DeepSeek-R1 模型代码和文档可从 GitHub 仓库下载,模型权重可从 Huggin
5、g Face 下载。2 月底,DeepSeek 又在一周内连续开源五个核心代码库,以完全透明的方式展示其最新研究成果。二是二是公开技术细节。DeepSeek-R1的 GPRO 训练算法、目标函数等技术细节都以论文/技术报告的形式公开。三是三是采用更宽松的开源协议。早期,DeepSeek 曾效仿 Meta 等美国公司使用自创许可协议 DeepSeek License,但本次直接统一为更宽松的 MIT 许可,既不限制商用,也无需申请。另外另外,DeepSeek 还支持用户进行“模型蒸馏”。二、二、DeepSeek 突破性实现了三个突破性实现了三个“首次首次”,构建了开源,构建了开源 AI大模型从技
6、术共享到生态重构的正向循环大模型从技术共享到生态重构的正向循环 -4-DeepSeek 通过技术上的深度优化实现了“低成本”与“高性能”兼得,在打破人工智能大模型产业原有格局的同时,也带来人工智能相关行业的新一轮发展机遇。技术层面,首次开辟大模型创新发展第二路径,有望推动实现全球技术层面,首次开辟大模型创新发展第二路径,有望推动实现全球 AI 普惠平权发展。普惠平权发展。DeepSeek-R1 成功证明了纯强化学习(RL)训练方法在提升大模型推理能力方面的可行性,为在有限算力条件下实现大模型“小而美”发展提供了全新的技术路线参考,并得到了李飞飞等科研团队的验证。此前,大模型能力提升主要依赖“S