当前位置:首页 > 报告详情

中国联通:2025年DeepSeek洞察与大模型应用-人工智能技术发展与应用实践报告(37页).pdf

上传人: 卢*** 编号:618775 2025-03-22 37页 5.87MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。

相关图表

根据报告的内容,本文主要概括了以下几个关键点: 1. DeepSeek是幻方量化旗下的大模型企业,成立于2023年5月,其产品DeepSeek-V3和R1在性能上超越了其他开源模型,与顶级闭源模型GPT-4o和Claude-3.5-Sonnet不分伯仲。 2. DeepSeek-V3是一个基于Transformer架构的混合专家(MoE)模型,总共有671B个参数,生成每个token时激活37B参数。其训练成本比LLaMA 405B低一个量级。 3. DeepSeek-R1通过大规模强化学习(RL)训练,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。 4. DeepSeek-R1推出后,迅速出圈海外,下载排名从201名迅速登顶第一名。 5. DeepSeek对中美科技竞争产生了深刻影响,美国参议员提出《2025年美国与中国人工智能能力脱钩法案》,有脱钩风险。 6. DeepSeek在应用侧落地仍需要多模型组合、多外挂工具,以及大量工程化配合。 7. 大模型存在幻觉问题、知识实时更新能力差、偏见、隐私与安全等局限性。
深度求索如何超越GPT-4o? 大模型如何解决幻觉问题? 深度求索如何赋能政务热线?
客服
商务合作
小程序
服务号