SuperCLUE团队：中文大模型基准测评2025年上半年报告-三个皮匠报告

1、中文大模型基准测评中文大模型基准测评2022025 5年年上半上半年报告年报告 2025.08.04 2025年中文大模型阶段性进展半年度评估SuperCLUE团队精准量化通用人工智能（AGI）进展，定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI,Defining the Roadmap for Humanitys Journey towards AGI.一、一、2025年年上半年上半年关键进展及趋势关键进展及趋势1.2025年上半年大模型关键进展 2.2025年最值得关注的中文大模型及智能体全景图3.2025年国内外大模型差距4

2、.近一年SuperCLUE通用基准测评开闭源模型最好成绩对比报报告告目目录录四、专项测评基准介绍四、专项测评基准介绍1.Agent系列基准介绍2.多模态系列基准介绍3.文本系列基准介绍4.推理系列基准介绍5.性能系列基准介绍二、二、七月七月通用测评介绍通用测评介绍1.SuperCLUE基准介绍 2.SuperCLUE大模型综合测评体系3.SuperCLUE通用测评基准数据集及评价方式 4.各维度测评说明及示例5.测评模型列表三、总体测评结果与分析三、总体测评结果与分析1.SuperCLUE模型象限（202507）2.SuperCLUE通用能力测评榜单3.SuperCLUE性价比区间分布4

3、.SuperCLUE大模型综合效能区间分布 5.代表性模型分析6.国内大模型成熟度-SC成熟度指数7.评测与人类一致性验证3SuperCLUESuperCLUE全球大模型全球大模型中文综合能力中文综合能力排行榜（排行榜（20252025年年7 7月）月）本次测评包括六大任务：数学推理、科学推理、代码生成（含web开发）、智能体Agent（多轮工具调用）、幻觉控制、精确指令遵循。题目量为1288道新题，最终得分取各任务平均分。o3以以73.78的总分取得总榜第一，领跑的总分取得总榜第一，领跑全球。全球。海外头部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基准测

4、评中取得了73.78分、73.32分和68.98分的总成绩，分别位于榜单前三。Doubao-Seed-1.6-thinking-250715以68.04的总分取得国内第一、全球第四的成绩。国国内外头部模型之间的差异较大，海外内外头部模型之间的差异较大，海外模型在推理任务上的优势尤其明显。模型在推理任务上的优势尤其明显。海外模型在推理任务上的优势尤其显著，o3和o4-mini(high)在推理任务上分别取得了75.02和72.68的分数，领跑推理任务榜单。国内推理任务成绩最好的模型分别是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715，均有超过65

5、分的表现，但与海外头部模型依旧相差近10分。国内开源模型相较于海外开源模型优势显著。国内开源模型相较于海外开源模型优势显著。DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分别以66.15分、64.34分和63.25分取得了开源榜单的前三名，海外开源模型最好成绩仅有46.37分，与国内开源模型最好成绩相差近20分，国内开源模型的优势显著。国内大模型在智能体国内大模型在智能体Agent和幻觉控制任务上的表现和幻觉控制任务上的表现良好。良好。在智能体Agent任务上，Doubao-Seed-1.6-thinking-250715以90.6

6、7分领跑全球，GLM-4.5和SenseNova V6 Reasoner以83.58分并列国内第二。在幻觉控制任务上，Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分别位于国内前三。Qwen3系列的开源小参数系列的开源小参数量模型表现亮眼。量模型表现亮眼。Qwen3系列的多款开源小参数量模型展现出惊人潜力。其中8B、4B和1.7B版本分别在10B级别和端侧5B级别的榜单中遥遥领先。4大模型性价比区间分布推理模型推理效能区间分布数据来源：SuperCLUE，2025年7

SuperCLUE团队：中文大模型基准测评2025年上半年报告（60页）.pdf

相关报告