
2024 年 12 月推出迭代版本 DeepSeek-V3,采用 FP8 混合精度框架实现高效训练,总成本较同类闭源模型降低 90%以上。DeepSeek-V3 作为 2024 年 12 月推出的迭代版本,参数规模扩展至 6710 亿,每次推理激活 370 亿参数,预训练数据量达 14.8万亿 token。该模型创新性融合无辅助损失负载均衡策略与多 token 预测(MTP)训练目标,采用 FP8 混合精度框架实现高效训练,总成本仅 557.6 万美元,较同类闭源模型降低 90%以上。技术突破方面,其生成速度达每秒 60token,支持 128K 上下文窗口,在数学竞赛题库测试中超越所有开源闭源模型,代码生成能力接近 Claude-3.5-Sonnet 水平。值得注意的是,DeepSeek-V3 在斯坦福大学 SWE-Bench 工程代码场景评测中展现出与顶尖商业模型相当的工程实践能力,成为首个在复杂编码任务中达到闭源标杆水平的开源模型。