1、中文大模型基准测评中文大模型基准测评2022024 4年年度度报告报告 2025.01.08 2024中文大模型阶段性进展年度评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanitys journey towards AGI.报告摘要(一)OpenAI发布发布o1正式版,大幅领跑全球正式版,大幅领跑全球o1正式版的推出进一步拉大了与其他模型的差距。经12月测评,o1以80.4分大幅领跑全球,较ChatGPT-4o
2、-latest高10.2分,较国内最好模型高12.1分。国内顶尖大模型进展迅速,较为接近国内顶尖大模型进展迅速,较为接近ChatGPT-4o-latest国内顶尖大模型进展迅速,其中DeepSeek-V3和SenseChat 5.5-latest取得68.3分表现出色,超过Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp,较为接近ChatGPT-4o-latest(仅相差1.9分)。国内模型在推理速度和性价比方面很有竞争力国内模型在推理速度和性价比方面很有竞争力国内模型DeepSeek-V3和Qwen2.5-32B-Instruct在推理效能方面表现出色,在高水平能
3、力的基础上,保持极快的推理速度。在性价比方面,DeepSeek-V3、Qwen2.5-72B-Instruct(阿里云)在高水平能力的基础上,保持低成本的API价格。端侧小模型表现惊艳端侧小模型表现惊艳国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如Qwen2.5-3B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。3来源:SuperCLUE,2025年1月8日报告摘要(二)4来源:SuperCLUE,2025年1月8日注:专项任务排名中,当出现并列排名的情况(如并列第二),则后续排名依次顺延(第三名自动空缺)。数据来源:SuperCLUE
4、,2025年1月8日;大模型性价比分布大模型性价比分布一级维度一级维度专项专项任务任务国内国内TOP1 国内国内TOP2 国内国内TOP3 HaHardrdAgentAgentStep-2-16k(75.0分)DeepSeek-V3Qwen2.5-72B-Instruct(74.0分)/指令遵循指令遵循Qwen-max-latest(35.7分)TeleChat2-Large(34.3分)DeepSeek-V3SenseChat 5.5-latest(31.5分)深度推理深度推理Baichuan4(60.2分)360zhinao2-o1(59.4分)DeepSeek-V3(58.8分)理科理科
5、代码代码Doubao-pro-32k-241215(75.2分)DeepSeek-R1-Lite-Preview(71.2分)DeepSeek-V2.5(70.9分)计算计算SenseChat 5.5-latest(78.2分)DeepSeek-V3360zhinao2-o1(76.3分)/逻辑推理逻辑推理360zhinao2-o1(71.0分)DeepSeek-V3(69.1分)Doubao-pro-32k-241215(67.8分)文科文科语言理解语言理解DeepSeek-V3(86.5分)DeepSeek-R1-Lite-Preview(86.1分)Qwen2.5-72B-Instruc
6、tTeleChat2-Large(84.7分)生成创作生成创作Hunyuan-Turbo(76.2分)NebulaCoder-V5(75.7分)MiniMax-abab7-preview(75.6分)传统安全传统安全SenseChat 5.5-latest(86.4分)NebulaCoder-V5(82.9分)Hunyuan-Turbo(82.5分)各维度国内各维度国内Top3Top3排行排行报告目录报告目录一、一、2024年度关键进展及趋势年度关键进展及趋势2024年大模型关键进展 2024年值得关注的中文大模型全景图2024年国内外大模型差距2024年国内外大模型能力趋势二、二、年度通用测