当前位置:首页 > 报告详情

SuperCLUE团队:中文大模型基准测评2025年上半年报告(60页).pdf

上传人: 山哈 编号:736173 2025-08-05 60页 24.39MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告内容,关键点如下: 1. 2025年上半年,国内外AI大模型技术快速发展,国内大模型在通用能力上与国外差距逐渐缩小。 2. 7月SuperCLUE通用能力测评中,海外模型o3以73.78分位居榜首,国内模型Doubao-Seed-1.6-thinking-250715以68.04分位列第四。 3. 国内模型在智能体Agent和幻觉控制任务上表现良好,但在推理任务上仍有差距。海外模型在推理任务上领先国内约10分。 4. 国内开源模型表现亮眼,DeepSeek-R1-0528在开源榜单中位列第一,与闭源榜首模型差距仅7.63分。 5. 国产小模型表现抢眼,Qwen3-8B(Thinking)在10B级别小模型榜单中位列第一。 6. 国内外大模型在性价比上存在差异,国内头部模型性价比较高。 7. 报告显示,SuperCLUE测评结果与人类评估具有高度一致性。
大模型进展如何? 中文大模型哪家强? 大模型安全吗?
客服
商务合作
小程序
服务号
折叠