
我们认为,DeepSeek 的核心优势为训练/推理成本优化,为 AI 应用的星辰大海创造可能。比如(1)DeepSeek-V2,采用混合专家(MoE)架构,相较同规模稠密模型节省 42.5%计算资源;(2)DeepSeek-V3,采用 FP8 混合精度框架实现高效训练,总成本较同类闭源模型降低 90%以上;(3)在推理专用模型(R 系列)中,DeepSeek-R1 通过大规模强化学习(RL)训练,引入显式思维链输出机制,可自主优化推理逻辑链,在数学、代码和推理任务方面均达到了与 OpenAI-o1 相当的性能,但推理成本仅为 OpenAI o1 系列的 1/30。(4)同时,通过知识蒸馏,推出 R1 的蒸馏版本 DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32B,其中 DeepSeek-R1-Distill-Qwen-32B 在保持高基准准确率的同时,将推理功耗控制在低水平,显著提升了企业级应用的可行性。