硅基流动上DeepSeek主要模型情况及调用价格 为了能够将推理能力迁移到不适合 MoE 架构的场景,DeepSeek 还用 DeepSeek-R1 对Llama 和 Qwen 系列开源大模型进行了蒸馏,并得到了 6 个小模型,也很好地提高了模型的推理能力。 行业数据 下载Excel 下载图片 原图定位