SuperCLUE:中文大模型基准测评2024年度报告(89页).pdf

编号:401984 PDF  PPTX 89页 27.30MB 下载积分:VIP专享
下载报告请您先登录!

SuperCLUE:中文大模型基准测评2024年度报告(89页).pdf

1、中文大模型基准测评中文大模型基准测评2022024 4年年度度报告报告 2025.01.08 2024中文大模型阶段性进展年度评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanitys journey towards AGI.报告摘要(一)OpenAI发布发布o1正式版,大幅领跑全球正式版,大幅领跑全球o1正式版的推出进一步拉大了与其他模型的差距。经12月测评,o1以80.4分大幅领跑全球,较ChatGPT-4o

2、-latest高10.2分,较国内最好模型高12.1分。国内顶尖大模型进展迅速,较为接近国内顶尖大模型进展迅速,较为接近ChatGPT-4o-latest国内顶尖大模型进展迅速,其中DeepSeek-V3和SenseChat 5.5-latest取得68.3分表现出色,超过Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp,较为接近ChatGPT-4o-latest(仅相差1.9分)。国内模型在推理速度和性价比方面很有竞争力国内模型在推理速度和性价比方面很有竞争力国内模型DeepSeek-V3和Qwen2.5-32B-Instruct在推理效能方面表现出色,在高水平能

3、力的基础上,保持极快的推理速度。在性价比方面,DeepSeek-V3、Qwen2.5-72B-Instruct(阿里云)在高水平能力的基础上,保持低成本的API价格。端侧小模型表现惊艳端侧小模型表现惊艳国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如Qwen2.5-3B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。3来源:SuperCLUE,2025年1月8日报告摘要(二)4来源:SuperCLUE,2025年1月8日注:专项任务排名中,当出现并列排名的情况(如并列第二),则后续排名依次顺延(第三名自动空缺)。数据来源:SuperCLUE

4、,2025年1月8日;大模型性价比分布大模型性价比分布一级维度一级维度专项专项任务任务国内国内TOP1 国内国内TOP2 国内国内TOP3 HaHardrdAgentAgentStep-2-16k(75.0分)DeepSeek-V3Qwen2.5-72B-Instruct(74.0分)/指令遵循指令遵循Qwen-max-latest(35.7分)TeleChat2-Large(34.3分)DeepSeek-V3SenseChat 5.5-latest(31.5分)深度推理深度推理Baichuan4(60.2分)360zhinao2-o1(59.4分)DeepSeek-V3(58.8分)理科理科

5、代码代码Doubao-pro-32k-241215(75.2分)DeepSeek-R1-Lite-Preview(71.2分)DeepSeek-V2.5(70.9分)计算计算SenseChat 5.5-latest(78.2分)DeepSeek-V3360zhinao2-o1(76.3分)/逻辑推理逻辑推理360zhinao2-o1(71.0分)DeepSeek-V3(69.1分)Doubao-pro-32k-241215(67.8分)文科文科语言理解语言理解DeepSeek-V3(86.5分)DeepSeek-R1-Lite-Preview(86.1分)Qwen2.5-72B-Instruc

6、tTeleChat2-Large(84.7分)生成创作生成创作Hunyuan-Turbo(76.2分)NebulaCoder-V5(75.7分)MiniMax-abab7-preview(75.6分)传统安全传统安全SenseChat 5.5-latest(86.4分)NebulaCoder-V5(82.9分)Hunyuan-Turbo(82.5分)各维度国内各维度国内Top3Top3排行排行报告目录报告目录一、一、2024年度关键进展及趋势年度关键进展及趋势2024年大模型关键进展 2024年值得关注的中文大模型全景图2024年国内外大模型差距2024年国内外大模型能力趋势二、二、年度通用测

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(SuperCLUE:中文大模型基准测评2024年度报告(89页).pdf)为本站 (securities) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠