1、中文大模型基准测评中文大模型基准测评2022025 5年年5 5月月报告报告 2025.05.28 2025中文大模型阶段性进展5月评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanitys journey towards AGI.一、一、2025上半年度关键进展及趋势上半年度关键进展及趋势1.2025年上半年大模型关键进展 2.2025年最值得关注的中文大模型全景图3.2025年国内外大模型差距二、二、5月月通
2、用测评介绍通用测评介绍1.SuperCLUE基准介绍 2.SuperCLUE大模型综合测评体系3.SuperCLUE通用测评基准数据集及评价方式 4.各维度测评说明及示例5.测评模型列表 三、总体测评结果与分析三、总体测评结果与分析1.SuperCLUE模型象限2.SuperCLUE通用能力测评榜单3.SuperCLUE-Agent:智能体测评分析4.SuperCLUE性价比区间分布5.SuperCLUE大模型综合效能区间分布 6.国内大模型成熟度-SC成熟度指数7.评测与人类一致性验证8.开源模型榜单9.10B级别小模型榜单10.端侧5B级别小模型榜单 报报 告告 目目 录录报告摘要(一)o
3、4-mini(high)总分稳居第一总分稳居第一,综合综合能力全面领先能力全面领先o4-mini(high)在本次5月测评中表现优异,总分达到70.51分,超过国内最好模型7.35分。该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力,特别是在代码生成(91.52)、指令遵循(68.07)方面得分较高。国内推理模型崭露头角,部分领域优势突出国内推理模型崭露头角,部分领域优势突出Doubao-1.5-thinking-pro-205415、SenseNova V6 Reasoner等国内模型表现亮眼。其中,Doubao-1.5-thinking-pro-205415在文本创作
4、与理解任务以81.04的高分领先其他模型。国内大模型在指令遵循方面普遍低于海外模型国内大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在国内模型中指令遵循得分第一,为36.97分,但是与海外模型指令遵循得分第一的o4-mini(high)相比,差距达到了31.1分,国内模型在指令遵循方面表现较弱,还有较大的提升空间。小参数模型表现超出预期小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是Qwen3系列,其中4B、8B和14B版本在推理任务上的分数均超过50分,超越了众多闭源大模型。3报告摘要(二)大 模 型 性 价 比 区 间 分 布大 模 型 推 理
5、效 能 区 间 分 布4数据来源:SuperCLUE,2025年5月28日;推理任务得分为推理任务总分:数学推理、科学推理和代码的平均分。开源模型如Qwen3-32B(Thinking)使用方式为API,价格信息均来自官方信息。注:部分模型API的价格是分别基于输入和输出的 tokens 数量确定的。这里我们依照输入 tokens 与输出 tokens 3:1 的比例来估算其整体价格。价格信息取自官方在5月的标准价格(非优惠价格)。数据来源:SuperCLUE,2025年5月28日;模型推理速度选取5月测评中具有公开API的模型。平均推理时间为所有测评数据推理时间的平均值(秒)。推理任务得分为
6、推理任务总分:数学推理、科学推理和代码生成的平均分。第一部分 20252025上上半年度半年度关键进展及趋势关键进展及趋势1.2025年上半年大模型关键进展 2.2025年最值得关注的中文大模型全景图3.2025年国内外大模型差距关键进展时间跃跃进期进期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年半有了实质性的突破。具体可分为:准备期、跃进期、繁荣期、深化期和融合期。2025上半年大模型关键进展2022.122023.062024.062024.122023.12SuperCLUE:AI大模型大模型2025