《SuperCLUE团队:中文大模型基准测评2025年上半年报告(60页).pdf》由会员分享,可在线阅读,更多相关《SuperCLUE团队:中文大模型基准测评2025年上半年报告(60页).pdf(60页珍藏版)》请在三个皮匠报告上搜索。
1、中文大模型基准测评中文大模型基准测评2022025 5年年上半上半年报告年报告 2025.08.04 2025年中文大模型阶段性进展半年度评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately Quantifying the Progress of AGI,Defining the Roadmap for Humanitys Journey towards AGI.一、一、2025年年上半年上半年关键进展及趋势关键进展及趋势1.2025年上半年大模型关键进展 2.2025年最值得关注的中文大模型及智能体全景图3.2025年国内外大模型差距4
2、.近一年SuperCLUE通用基准测评开闭源模型最好成绩对比报报 告告 目目 录录四、专项测评基准介绍四、专项测评基准介绍1.Agent系列基准介绍2.多模态系列基准介绍3.文本系列基准介绍4.推理系列基准介绍5.性能系列基准介绍二、二、七月七月通用测评介绍通用测评介绍1.SuperCLUE基准介绍 2.SuperCLUE大模型综合测评体系3.SuperCLUE通用测评基准数据集及评价方式 4.各维度测评说明及示例5.测评模型列表三、总体测评结果与分析三、总体测评结果与分析1.SuperCLUE模型象限(202507)2.SuperCLUE通用能力测评榜单3.SuperCLUE性价比区间分布4
3、.SuperCLUE大模型综合效能区间分布 5.代表性模型分析6.国内大模型成熟度-SC成熟度指数7.评测与人类一致性验证3SuperCLUESuperCLUE全球大模型全球大模型中文综合能力中文综合能力排行榜(排行榜(20252025年年7 7月)月)本次测评包括六大任务:数学推理、科学推理、代码生成(含web开发)、智能体Agent(多轮工具调用)、幻觉控制、精确指令遵循。题目量为1288道新题,最终得分取各任务平均分。o3以以73.78的总分取得总榜第一,领跑的总分取得总榜第一,领跑全球。全球。海外头部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基准测
4、评中取得了73.78分、73.32分和68.98分的总成绩,分别位于榜单前三。Doubao-Seed-1.6-thinking-250715以68.04的总分取得国内第一、全球第四的成绩。国国内外头部模型之间的差异较大,海外内外头部模型之间的差异较大,海外模型在推理任务上的优势尤其明显。模型在推理任务上的优势尤其明显。海外模型在推理任务上的优势尤其显著,o3和o4-mini(high)在推理任务上分别取得了75.02和72.68的分数,领跑推理任务榜单。国内推理任务成绩最好的模型分别是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715,均有超过65
5、分的表现,但与海外头部模型依旧相差近10分。国内开源模型相较于海外开源模型优势显著。国内开源模型相较于海外开源模型优势显著。DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分别以66.15分、64.34分和63.25分取得了开源榜单的前三名,海外开源模型最好成绩仅有46.37分,与国内开源模型最好成绩相差近20分,国内开源模型的优势显著。国内大模型在智能体国内大模型在智能体Agent和幻觉控制任务上的表现和幻觉控制任务上的表现良好。良好。在智能体Agent任务上,Doubao-Seed-1.6-thinking-250715以90.6
6、7分领跑全球,GLM-4.5和SenseNova V6 Reasoner以83.58分并列国内第二。在幻觉控制任务上,Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分别位于国内前三。Qwen3系列的开源小参数系列的开源小参数量模型表现亮眼。量模型表现亮眼。Qwen3系列的多款开源小参数量模型展现出惊人潜力。其中8B、4B和1.7B版本分别在10B级别和端侧5B级别的榜单中遥遥领先。4大 模 型 性 价 比 区 间 分 布推理模型推理效能区间分布数据来源:SuperCLUE,2025年7