
2024 年 5 月发布 DeepSeek-V2,核心优势体现为训练成本优化,相较同规模稠密模型节省 42.5%计算资源,同时支持 128K 超长上下文处理能力。DeepSeek-V2 于 2024年 5 月发布,采用混合专家(MoE)架构,总参数量达 2360 亿,每个 token 动态激活 210 亿参数。该模型在 8.1 万亿 token 的多样化语料库上完成预训练,通过引入多头潜在注意力(MLA)技术,显著降低 KV 缓存至原有规模的 6.7%,推理吞吐量提升至前代模型的 5.76 倍。其核心优势体现为训练成本优化,相较同规模稠密模型节省 42.5%计算资源,同时支持 128K 超长上下文处理能力。在性能层面,DeepSeek-V2 在 MMLU 知识问答基准中准确率达 78.5%,代码生成任务 HumanEval 基准通过率提升 8 个百分点至 53%,中文理解能力更在 C-Eval 评测中突破 81.7%,展现多领域均衡发展态势。