SuperCLUE团队:中文大模型基准测评2025年上半年报告(60页).pdf

编号:736173 PDF  PPTX 60页 24.39MB 下载积分:VIP专享
下载报告请您先登录!

SuperCLUE团队:中文大模型基准测评2025年上半年报告(60页).pdf

1、中文大模型基准测评中文大模型基准测评2022025 5年年上半上半年报告年报告 2025.08.04 2025年中文大模型阶段性进展半年度评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI,Defining the Roadmap for Humanitys Journey towards AGI.一、一、2025年年上半年上半年关键进展及趋势关键进展及趋势1.2025年上半年大模型关键进展 2.2025年最值得关注的中文大模型及智能体全景图3.2025年国内外大模型差距4

2、.近一年SuperCLUE通用基准测评开闭源模型最好成绩对比报报 告告 目目 录录四、专项测评基准介绍四、专项测评基准介绍1.Agent系列基准介绍2.多模态系列基准介绍3.文本系列基准介绍4.推理系列基准介绍5.性能系列基准介绍二、二、七月七月通用测评介绍通用测评介绍1.SuperCLUE基准介绍 2.SuperCLUE大模型综合测评体系3.SuperCLUE通用测评基准数据集及评价方式 4.各维度测评说明及示例5.测评模型列表三、总体测评结果与分析三、总体测评结果与分析1.SuperCLUE模型象限(202507)2.SuperCLUE通用能力测评榜单3.SuperCLUE性价比区间分布4

3、.SuperCLUE大模型综合效能区间分布 5.代表性模型分析6.国内大模型成熟度-SC成熟度指数7.评测与人类一致性验证3SuperCLUESuperCLUE全球大模型全球大模型中文综合能力中文综合能力排行榜(排行榜(20252025年年7 7月)月)本次测评包括六大任务:数学推理、科学推理、代码生成(含web开发)、智能体Agent(多轮工具调用)、幻觉控制、精确指令遵循。题目量为1288道新题,最终得分取各任务平均分。o3以以73.78的总分取得总榜第一,领跑的总分取得总榜第一,领跑全球。全球。海外头部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基准测

4、评中取得了73.78分、73.32分和68.98分的总成绩,分别位于榜单前三。Doubao-Seed-1.6-thinking-250715以68.04的总分取得国内第一、全球第四的成绩。国国内外头部模型之间的差异较大,海外内外头部模型之间的差异较大,海外模型在推理任务上的优势尤其明显。模型在推理任务上的优势尤其明显。海外模型在推理任务上的优势尤其显著,o3和o4-mini(high)在推理任务上分别取得了75.02和72.68的分数,领跑推理任务榜单。国内推理任务成绩最好的模型分别是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715,均有超过65

5、分的表现,但与海外头部模型依旧相差近10分。国内开源模型相较于海外开源模型优势显著。国内开源模型相较于海外开源模型优势显著。DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分别以66.15分、64.34分和63.25分取得了开源榜单的前三名,海外开源模型最好成绩仅有46.37分,与国内开源模型最好成绩相差近20分,国内开源模型的优势显著。国内大模型在智能体国内大模型在智能体Agent和幻觉控制任务上的表现和幻觉控制任务上的表现良好。良好。在智能体Agent任务上,Doubao-Seed-1.6-thinking-250715以90.6

6、7分领跑全球,GLM-4.5和SenseNova V6 Reasoner以83.58分并列国内第二。在幻觉控制任务上,Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分别位于国内前三。Qwen3系列的开源小参数系列的开源小参数量模型表现亮眼。量模型表现亮眼。Qwen3系列的多款开源小参数量模型展现出惊人潜力。其中8B、4B和1.7B版本分别在10B级别和端侧5B级别的榜单中遥遥领先。4大 模 型 性 价 比 区 间 分 布推理模型推理效能区间分布数据来源:SuperCLUE,2025年7

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(SuperCLUE团队:中文大模型基准测评2025年上半年报告(60页).pdf)为本站 (山哈) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠