天津大学:2025深度解读DeepSeek:原理与效应(44页).pdf

上传人: 外** 编号:604088 2025-02-10 44页 7.86MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。

相关图表

根据报告的内容,本文主要介绍了DeepSeek大语言模型的发展历程、技术创新、效应以及未来展望。 关键点包括: 1. DeepSeek大语言模型的发展历程:从2023到2025,DeepSeek经历了V1、V2、V3和R1等版本的发展,每个版本都在模型架构上进行了技术创新。 2. DeepSeek的技术创新:V2和V3版本在模型架构上选择了稀疏MoE模型,进行了大量技术创新,包括MLA、FP8训练、MoE All-to-All通信瓶颈解决、MTP等。R1版本在推理模型上进行了创新,包括大规模强化学习训练、推理模型训练技术框架等。 3. DeepSeek的效应:DeepSeek打破了美国第一梯队企业以闭源形成的技术护城河,进一步动摇了大语言模型发展路线图。同时,DeepSeek的成功也颠覆了美国对中国AI水平的认知,以及大模型研发成本的认知。 4. DeepSeek的未来展望:未来AGI/ASI可能还需要3-5个重大breakthroughs,个人预测人类所有职业实现AI自动化需要30年。当前阶段正在突破技术,路线图逐渐明确,可提出新的技术路线。
DeepSeek如何实现高性能低成本? DeepSeek R1如何提升推理能力? DeepSeek对AI安全有何贡献?
客服
商务合作
小程序
服务号