《SuperCLUE:中文大模型基准测评2024年度报告(89页).pdf》由会员分享,可在线阅读,更多相关《SuperCLUE:中文大模型基准测评2024年度报告(89页).pdf(89页珍藏版)》请在三个皮匠报告上搜索。
1、中文大模型基准测评中文大模型基准测评2022024 4年年度度报告报告 2025.01.08 2024中文大模型阶段性进展年度评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanitys journey towards AGI.报告摘要(一)OpenAI发布发布o1正式版,大幅领跑全球正式版,大幅领跑全球o1正式版的推出进一步拉大了与其他模型的差距。经12月测评,o1以80.4分大幅领跑全球,较ChatGPT-4o
2、-latest高10.2分,较国内最好模型高12.1分。国内顶尖大模型进展迅速,较为接近国内顶尖大模型进展迅速,较为接近ChatGPT-4o-latest国内顶尖大模型进展迅速,其中DeepSeek-V3和SenseChat 5.5-latest取得68.3分表现出色,超过Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp,较为接近ChatGPT-4o-latest(仅相差1.9分)。国内模型在推理速度和性价比方面很有竞争力国内模型在推理速度和性价比方面很有竞争力国内模型DeepSeek-V3和Qwen2.5-32B-Instruct在推理效能方面表现出色,在高水平能
3、力的基础上,保持极快的推理速度。在性价比方面,DeepSeek-V3、Qwen2.5-72B-Instruct(阿里云)在高水平能力的基础上,保持低成本的API价格。端侧小模型表现惊艳端侧小模型表现惊艳国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如Qwen2.5-3B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。3来源:SuperCLUE,2025年1月8日报告摘要(二)4来源:SuperCLUE,2025年1月8日注:专项任务排名中,当出现并列排名的情况(如并列第二),则后续排名依次顺延(第三名自动空缺)。数据来源:SuperCLUE
4、,2025年1月8日;大模型性价比分布大模型性价比分布一级维度一级维度专项专项任务任务国内国内TOP1 国内国内TOP2 国内国内TOP3 HaHardrdAgentAgentStep-2-16k(75.0分)DeepSeek-V3Qwen2.5-72B-Instruct(74.0分)/指令遵循指令遵循Qwen-max-latest(35.7分)TeleChat2-Large(34.3分)DeepSeek-V3SenseChat 5.5-latest(31.5分)深度推理深度推理Baichuan4(60.2分)360zhinao2-o1(59.4分)DeepSeek-V3(58.8分)理科理科
5、代码代码Doubao-pro-32k-241215(75.2分)DeepSeek-R1-Lite-Preview(71.2分)DeepSeek-V2.5(70.9分)计算计算SenseChat 5.5-latest(78.2分)DeepSeek-V3360zhinao2-o1(76.3分)/逻辑推理逻辑推理360zhinao2-o1(71.0分)DeepSeek-V3(69.1分)Doubao-pro-32k-241215(67.8分)文科文科语言理解语言理解DeepSeek-V3(86.5分)DeepSeek-R1-Lite-Preview(86.1分)Qwen2.5-72B-Instruc
6、tTeleChat2-Large(84.7分)生成创作生成创作Hunyuan-Turbo(76.2分)NebulaCoder-V5(75.7分)MiniMax-abab7-preview(75.6分)传统安全传统安全SenseChat 5.5-latest(86.4分)NebulaCoder-V5(82.9分)Hunyuan-Turbo(82.5分)各维度国内各维度国内Top3Top3排行排行报告目录报告目录一、一、2024年度关键进展及趋势年度关键进展及趋势2024年大模型关键进展 2024年值得关注的中文大模型全景图2024年国内外大模型差距2024年国内外大模型能力趋势二、二、年度通用测
7、评介绍年度通用测评介绍SuperCLUE介绍 SuperCLUE大模型综合测评体系及数据集SuperCLUE通用测评基准数据集及评价方式 各维度测评说明各维度测评示例测评模型列表 三、总体测评结果与三、总体测评结果与分析分析SuperCLUE通用能力测评总分SuperCLUE模型象限(2024)历月SuperCLUE大模型Top3一、二级维度表现九大任务年度Top5综合效能区间分布性价比区间分布国内外推理模型能力对比Hard、理科、文科成绩及示例国内大模型成熟度-SC成熟度指数评测与人类一致性验证四、四、开源模型进展评估开源模型进展评估开源模型榜单10B级别小模型榜单端侧5B级别小模型榜单五、
8、五、智能体智能体Agent基准基准六、推理基准六、推理基准七、多模态基准七、多模态基准八、八、AI产品基准产品基准九、行业测评基准九、行业测评基准十、重点文本专项基准十、重点文本专项基准十一、优秀模型案例十一、优秀模型案例第1部分 20242024年度年度关键进展及趋势关键进展及趋势1.2024年大模型关键进展 2.2024年值得关注的中文大模型全景图3.2024年国内外大模型差距4.2024年国内外大模型能力趋势6关键进展时间跃跃进期进期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。具体可
9、分为:准备期、跃进期、繁荣期和深化期。2024年大模型关键进展2022.122023.062024.062024.122023.12SuperCLUE:AI大模型大模型2024年关键进展年关键进展7深化期深化期准备准备期期ChatGPTChatGPT发布,发布,全球范围内迅速形全球范围内迅速形成大模型共识。成大模型共识。繁荣期繁荣期GPT4GPT4发布发布,进一步掀起大模型研发进一步掀起大模型研发热潮。热潮。国内快速跟进大模型研发。国内快速跟进大模型研发。文心一言文心一言1.01.0、通义千问、通义千问、讯飞星火、讯飞星火、360360智智脑、脑、ChatGLMChatGLM等首批模型相继发布
10、。等首批模型相继发布。GPT-4 TurboGPT-4 Turbo、GeminiGemini等海外大模等海外大模型发布,继续提升模型性能。型发布,继续提升模型性能。国内闭源大模型快速发展。国内闭源大模型快速发展。豆包、混豆包、混元、元、商量商量3.03.0、盘古、盘古3.03.0、AndesGPTAndesGPT、BlueLMBlueLM、星火星火3.03.0等陆续发布。等陆续发布。Llama2Llama2开源开源,极大助力全球大模型极大助力全球大模型开发者生态。开发者生态。G P T-4 oG P T-4 o、C l a u d e 3.5C l a u d e 3.5、Gemini1.5G
11、emini1.5、Llama3Llama3发布,海外进发布,海外进入入“一超多强一超多强”的竞争格局。的竞争格局。国内多模态领域进展迅速,在部分领国内多模态领域进展迅速,在部分领域领先海外。域领先海外。视频生成模型可灵视频生成模型可灵AIAI、海螺视频、海螺视频、viduvidu、PixVersePixVerse等模型陆等模型陆续发布,并在海外取得较大应用进展。续发布,并在海外取得较大应用进展。国内通用模型持续提升。国内通用模型持续提升。Qwen2.5Qwen2.5、文心文心4.04.0、GLM4GLM4、商量、商量5.55.5等通用模等通用模型陆续更新。型陆续更新。OpenAIOpenAI发
12、布发布SoraSora,极大拓展了极大拓展了AIAI在在视频领域的想象力。视频领域的想象力。Claude3.5-SonnetClaude3.5-Sonnet发布发布,在代码,在代码和和AgentAgent能力上能力上掀起效率革命。掀起效率革命。国内推理模型迅速跟进。国内推理模型迅速跟进。QWQQWQ、K0-K0-m a t hm a t h、D e e p S e e k-R 1-L i t eD e e p S e e k-R 1-L i t e、I n t e r n T h i n k e rI n t e r n T h i n k e r、3 6 0 g p t 2-o 13 6 0
13、 g p t 2-o 1、GLM-ZeroGLM-Zero等推理模型陆续发布。等推理模型陆续发布。国内模型性能持续提升。国内模型性能持续提升。DeepSeek-DeepSeek-V 3V 3、豆 包、豆 包-P r o-P r o、混 元、混 元-T u r b o-T u r b o、GLM-4-PlusGLM-4-Plus等系列模型综合等系列模型综合能力上能力上持续提升。持续提升。OpenAIOpenAI发布发布o1o1,强化学习新范式,强化学习新范式,实现推理等复杂能力上的重大突破。实现推理等复杂能力上的重大突破。国 内 开 源 生 态 爆 发。国 内 开 源 生 态 爆 发。B a i
14、 c h u a nB a i c h u a n、QwenQwen、InternLMInternLM、ChatGLM3ChatGLM3、Yi-34BYi-34B等系列模型引领开源热潮。等系列模型引领开源热潮。ChatGPTChatGPT上线实时视频能力,上线实时视频能力,深入深入语音视觉实时多模态应用场景。语音视觉实时多模态应用场景。文文本本文生图字节豆包AndesGPT通用闭源通用开源多多模模态态文生视频视觉理解行行业业医疗MindGPTMindGPT蚂蚁金融大模型轩辕大模型奇智孔明奇智孔明AInno-15BSMore LrMo更多行业部分领域汽车教育金融工业.妙想金融大模型GLM-4vG
15、LM-4v百川AI全科医生医联医联MedGPT百度灵医极氪Kr大模型易车大模型华为盘古工业大模型羚羊工业大模型营销:文化:妙笔大模型法律:深势分子大模型AI4S:实时交互智 谱 清 言星 火 极 速通义APPSenseChat-VisionSenseChat-VisionTeleChat2-35B语音合成/声音复刻百度TTS讯飞语音合成讯飞语音合成CosyVoice推理 QWQ-32B-PreviewDeepSeek-R1-LiteInternThinkerK0-mathK0-math360gpt2-o1360gpt2-o1SuperCLUESuperCLUE:20242024年年最值得关注的
16、中文大模型全景图最值得关注的中文大模型全景图2024年国内外大模型差距模型模型23年年5月月 23年年6月月23年年7月月23年年8月月23年年9月月23年年10月月23年年11月月23年年12月月24年年2月月24年年4月月24年年6月月24年年8月月24年年10月月24年年12月月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.4国内TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.327
17、7.0078.6469.6468.3国内TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.3 国内TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.4 总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-T
18、urbo、GPT4o、o1的多个版本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着但随着o1o1的发布,差距再次拉大到的发布,差距再次拉大到15.05%15.05%。国内外Top1模型差距分数国内外Top1模型差距比例SuperCLUE基准:过去基准:过去18个月国内外个月国内外TOP大模型对比大模型对比趋势趋势来源:SuperCLUE,2023年5月2024年12月,期间发布的14次大模型基准测评报告。9Qwen2.5Qwen2.52024年国内外大模型能力趋势SuperCLUE基准分数22.0923.
19、0322.1220507080406030GLM-GLM-4 4GLM3GLM3GLM2GLM2Qwen1.0Qwen1.0GPT-3.5-TurboGPT-3.5-TurboGPT-4GPT-4GPT-4-GPT-4-TurboTurboGPT-4GPT-4o oo1o1文心一言文心一言3.53.5豆包(云雀)豆包(云雀)23.0623.0923.1224.0324.0624.0924.1225.03o1-Previewo1-PreviewGLM-4-GLM-4-PlusPlus文心一言文心一言4.04.0Qwen1.5Qwen1.5文心一言文心一言4.0 Turbo4.0 TurboDee
20、pSeek-V2.5DeepSeek-V2.5DeepSeek-V3DeepSeek-V3Claude2.0Claude2.0Claude 3.0 OpusClaude 3.0 OpusClaude 3.5 SonnetClaude 3.5 Sonnet(10221022)Doubao-pro-previewDoubao-pro-previewDoubao-proDoubao-pro12151215模型发布时间OpenAI阿里云Anthropic字节跳动百度智谱DeepSeekQwen2.0Qwen2.0代表性大模型基准表现趋势代表性大模型基准表现趋势注:部分模型基准分数取自2024年12月测
21、评结果,为保证基准得分的连续性,其他未在2024年12月测评的模型基准分数=X(该模型的历史基准得分)*Y(与12月基准相比的难度系数)。以上模型选取参考模型能力、开放生态、应用场景等综合因素。HunyuanHunyuanHunyuan-ProHunyuan-ProHunyuan-TurboHunyuan-Turbo腾讯趋势分析趋势分析在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doub ao-p r o、G LM-4-P l u s、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude 3.5 Sonn
22、et的表现。1.1.以以DeepSeek-V3DeepSeek-V3为代表的国产模型正为代表的国产模型正极为接近极为接近 GPT-4o-latest GPT-4o-latest在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。2.o12.o1基于强化学习新范式的推理模型,突破基于强化学习新范式的推理模型,突破8080分拉分拉大国内外顶尖模型差距大国内外顶尖模型差距10第2部分 年度通用测评介绍年度通用测
23、评介绍1.SuperCLUE基准介绍 2.SuperCLUE大模型综合测评体系 3.SuperCLUE通用测评基准数据集 4.各维度测评说明5.各维度测评示例6.测评模型列表 11SuperCLUE是大模型时代背景下是大模型时代背景下CLUE基准的发展和延续基准的发展和延续,是独立、领先的通用大模型的综合性测评基准。中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)发起于发起于2019年,年,陆续推出过CLUE、FewCLUE、ZeroCLUE等广为引用的测评基准。0 0数据污染数据污染每每2 2个月题库个月题库100%1
24、00%替换替换题目题目100%100%原创原创传统测评传统测评 SuperCLUE易数据易数据污染污染学术视角学术视角与应用侧较大偏差与应用侧较大偏差维度固定陈旧维度固定陈旧无法与时俱进无法与时俱进VSSuperCLUE三三大特征大特征产业产业+用户用户视角视角SuperCLUESuperCLUE与传统测评与传统测评的区别的区别12维度维度LiveLive更新更新题目固定题目固定过拟合风险高过拟合风险高2019CLUECLUE基准发布基准发布2020发布多篇顶会论文,并承办了NLPCC 2020 开放测评任务2021发布FewCLUE、DataCLUE、ZeroCLUE等多个知名测评基准202
25、2联合西湖大学发布DataCentricAI;发布SimCLUE大规模中文语义理解数据集2023.01-06中文领域首个通用大模型测评基准SuperCLUESuperCLUE正式发布正式发布2023.07-12发布首个中文多轮开放式测评基准SuperCLUE-Open;发布行业测评基准发布行业测评基准2024.01-06发布数学、代码、长文本、RAG等测评基准;发布文生视频、文生图、视觉理解等多模态测评基准多模态测评基准2024.07-09发布AI编程助手、实时交互等AIAI应用测评基准;应用测评基准;发布智能座舱测评基准。2024.10-12发布链式推理、小学奥数等推理测评基准;推理测评基准
26、;发布多轮可执行智能体测评基准智能体测评基准AgentCLUEAgentCLUE010203“LiveLive”更新更新,0 0数据污染数据污染测评方式与用户交互一致测评方式与用户交互一致独立独立第三方,无自家模型第三方,无自家模型测评题库每测评题库每2 2个月个月100%100%替换且全部原创替换且全部原创,杜绝过拟合风险。体系维度根据大模型进展Live更新。测评方法与用户交互方式保持一致测评方法与用户交互方式保持一致,测评任务贴近真实落地场景,高度还原用户视角。完全独立的第三方评测机构完全独立的第三方评测机构,不研发自家模型。承诺提供无偏倚的客观、中立评测结果。SuperCLUE基准介绍S
27、uperCLUE大模型综合测评基准框架大模型综合测评基准框架通用基准通用基准文本专项文本专项基准基准多模态多模态基准基准推理推理基准基准Agent基准基准应用应用基准基准理科理科计算逻辑推理代码文科文科语言理解生成创作传统安全Hard深度推理Agent精确指令遵循长文本SuperCLUE-Long视频视频文生视频SuperCLUE-T2V超长文本SuperCLUE-200K角色扮演SuperCLUE-Role检索增强生成SuperCLUE-RAG多轮对抗安全SuperCLUE-Safety图像图像/视觉视觉实时音视频交互SuperCLUE-Live多模态理解SuperCLUE-V语音语音实时语
28、音交互SuperCLUE-Voice语音合成SuperCLUE-TTS文生图SuperCLUE-Image声音复刻SuperCLUE-Cloning链式推理SuperCLUE-COT代码SuperCLUE-Code3小学奥数SuperCLUE-Math6o数学多步推理SuperCLUE-Math6科学推理SuperCLUE-Science视觉推理SuperCLUE-VR通用通用可执行智能体AgentCLUE终端智能体终端智能体行业行业智能体智能体零售教育医疗.AI产品产品AI搜索SuperCLUE-AISearch代码助手SuperCLUE-Coder行业行业金融SuperCLUE-Fin工业
29、SuperCLUE-Industry汽车SuperCLUE-Auto智能座舱SuperCLUE-Icabin已发布即将发布13不可执行智能体SuperCLUE-Agent手机PC眼镜.SuperCLUE大模型综合测评体系基于大模型技术和应用发展趋势、以及基准测评专业经验,SuperCLUE构建出多领域、多层次的大模型综合性测评基准框架。从基础到应用覆盖:通用基准体系、文本专项系列基准、多模态系列基准、推理系列基准、Agent系列基准、AI应用基准。为产业、学术和研究机构的大模型研发提供重要参考。本次本次1212月报告聚焦通用能力测评,月报告聚焦通用能力测评,由理科、文科和Hard三大维度构成。
30、题目均为原创新题原创新题,总量为1325道多轮简答题。【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为语言理解、生成创作、安全测评集;【Hard任务】分为指令遵循、深度推理、Agent测评集。14SuperCLUE通用测评基准数据集及评价方式理科文科Hard1.1.计算计算介绍介绍:包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。评价方式评价方式:人工校验参考答案的、多维度评价标准的评估。2 2.逻辑推理逻辑推理介绍介绍:包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。评价方式评价方式:人工校验参考答案的、多维度评价标准的评估。3 3.代码代码介绍介
31、绍:HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。评价方式评价方式:基于代码单元测试的评估(0-1得分)5.5.生成与创作生成与创作介绍介绍:包括但不限于广告文案、技术写作、公文写作、文学创作、角色扮演、长文本的数据集。评价方式评价方式:多维度评价标准的评估。4.4.语言理解语言理解介绍介绍:基础语言理解数据集,包括但不限于信息抽取、意图识别、摘要、百科知识。评价方式评价方式:多维度评价标准的评估。6.6.传统安全传统安全介绍介绍:包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德伦理等。评价方式评价方式:多维度评价标准的评估。7.7.指令指令遵循遵循介绍
32、介绍:主要考察模型的指令遵循能力,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。评价方式评价方式:基于规则脚本的评估(0-1得分)8.8.深度推理深度推理介绍介绍:主要考察模型在复杂任务中的多步推理能力。复杂任务推理涉及在多个变量和条件下进行逻辑推理。评价方式评价方式:人工校验参考答案的、多维度评价标准的评估。SuperCLUE通用基准数据集及评价通用基准数据集及评价方式方式9.9.AgentAgent介绍介绍:主要考察在中文场景下基于可执行的环境,LLM作为执行代理,在多轮对话中调用工具完成任务的能力。包括两大任务类型:常规单轮对话和常规多轮对话。评价方式评价方式:
33、结合任务完成与否、系统状态比对的评估(0-1得分)理科测评说明1(计算、逻辑推理)15SuperCLUE-理科评测数据集计算计算包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。逻辑推理逻辑推理包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。测评方法评测流程:评测流程:我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。以【计算】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均
34、得分:因此,该题目的具体得分为4分。最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。问题:问题:模型回答:模型回答:评价打分:评价打分:1.基于标准1的:AI助手的回答完全符合用户的要求,详细地解释了级数的收敛性并计算了级数的和。基于标准1的得分:5分;2.基于标准2的:AI助手的推理过程准确,逻辑清晰,应用了正确的数学方法来判断级数的收敛性和计算级数的和。基于标准2的得分:5分;3.基于标准3的:AI助手得出的结论与已知的数学常识和事实一致,验证了级数的收敛性并正确计算了级数的和。基于标准3的得分:5分;综合以上,综合以上
35、,AIAI助手的回答的综合得分(平均分)为助手的回答的综合得分(平均分)为55示例-计算理科测评说明2(代码)16SuperCLUE-理科评测数据集代码代码HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。测评方法评测流程:评测流程:整体测评流程包括:1.获取模型答案;2.提取功能函数;3.测试功能函数;4.计算模型得分。1.获取模型答案:使用特定的prompt要求模型按照特定格式回答,以方便后续提取。对于一个代码补全问题,每个模型获取一次答案。2.提取功能函数:获取到模型回复之后,结合prompt要求和模型回答设定规则提取函数代码。3.测试功能函数:对于一个代码补
36、全问题,将提取得到的代码和该问题对应的N个测试用例组装成N个可独立运行的单元测试程序,在沙箱环境运行(沙箱环境python版本设置为3.10)。4.计算模型得分:对于一个代码补全问题和1个测试用例,构成一个单元测试,通过测试得1分。最终计算模型在所有单元测试中得分平均分*100作为最终的得分。问题:问题:import mathfrom typing import Tuplefrom collections import dequedef task_func(jugs:Tupleint,target:int)-bool:给定三个水壶的容量,判断是否可以通过无限的水源和以下操作精确地得到 targ
37、et 升水。允许的操作包括:-装满任意一个水壶 -清空任意一个水壶 -将水从一个水壶倒入另一个水壶,直到倒水壶为空,或接水壶已满 参数:-jugs:Tupleint,int,int-三个水壶的容量,按升为单位。-target:int-目标水量,单位为升。返回:-bool-是否可以达到目标水量。示例-代码模型回答:模型回答:from typing import Tupledef has_enough_water(jugs:Tupleint,target:int)-bool:import math ju=jugs if ju0 target:return False if ju1 target:r
38、eturn False if ju2 target:return False if ju0=0:return False if ju1=0:return False if ju2 0:return True return False测试功能函数:测试功能函数:def check(candidate):assert task_func(3,5,8),4)=True计算模型得分计算模型得分:测试未通过测试未通过,不得分不得分文科测评说明17SuperCLUE-文科评测数据集测评方法评测流程:评测流程:我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分
39、)。以【生成与创作】任务为例,设定的评价标准包括:符合基本要求、语言与逻辑连贯性、推理链条完整度。假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、语言与逻辑连贯性4分、推理链条完整度5分。首先,我们计算这一题目的平均得分:因此,该题目的具体得分为4分。最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。问题:问题:你作为学校教务处的工作人员,需要起草一份关于期末考试安排的通告。通告应包括以下内容:1.详细的考试时间表和科目安排,确保学生能够清楚知晓每一科目的具体考试日期和时间;2.各科目考试的具体考场安排,包括每个班
40、级所在的考场和座位号,以避免考试当天的混乱;5.考试纪律的明确要求,特别是针对作弊行为的严格规定,引用学校相关的规章制度和处罚措施,确保公平、公正。模型回答:模型回答:关于期末考试安排的通告亲爱的全体同学:为确保本学期期末考试的顺利进行,现将考试安排及相关事项通知如下,请同学们认真阅读并严格遵守一、考试时间表及科目安排(.)二、考场安排(.)五、考试纪律要求(考试是检验学习成果的重要方式,学校对考试纪律有严格要求,请同学们自觉遵守:1.严禁携带任何与考试无关的物品进入考场,一经发现视为作弊.)六、联系方式(.)评价打分:评价打分:1.基于标准1的:回答与问题高度契合,详细涵盖了考试时间表、考场
41、安排、注意事项、特殊安排和考试纪律等方面,完全满足用户的需求。基于标准1的得分:5分;2.基于标准2的:回答在表达上非常完整,但缺乏一些创新性的表达或独特的见解,如提供一些学生不同情况的应对方案或温馨提示。基于标准2的得分:3分;3.基于标准3的;回答表述清晰,逻辑连贯,各个部分有机结合,并且层次分明。基于标准3的得分:5分;4.基于标准4的;提供的信息大部分是关于考试安排的细节,并且看不到明显错误。基于标准4的得分:5分;综合以上,综合以上,AIAI助手的回答的综合得分(平均分)为助手的回答的综合得分(平均分)为4.4.5 5 示例-生成与创作语言理解语言理解基础语义理解数据集,包括但不限于
42、信息抽取、意图识别、摘要、百科知识。生成与创作生成与创作包括但不限于广告文案、技术写作、公文写作、文学创作、角色扮演、长文本的数据集。安全安全包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德伦理等。Hard测评说明1(精确指令遵循)评测流程:评测流程:我们完成了一个针对不同的语言模型的(文本输出)精确指令遵循表现的测试,根据设定的评估标准进行评估。评估的结果为布尔值(True 或 False)。以【写一篇关于可再生能源对减少碳排放的作用的短文。要求文章不得使用“二氧化碳”这个词,字数不少于10个字,以JSON格式返回】任务为例:设定的评价标准包括:遵循关键词限制、符合字数要求、输出格式
43、正确遵循关键词限制、符合字数要求、输出格式正确。模型只有在命中所有指令的条件下会得到True的返回结果。例如:模型输出结果1:response:可再生能源在减少碳排放和减轻气候变化方面起着关键作用,未来应加快推广。符合所有要求,返回True。模型输出结果2:response:使用可再生能源可以减少二氧化碳排放。违背了关键词限制,返回False。最后,我们将所有题目的评估结果进行汇总,根据模型完全命中的题目数量计算模型的最终命中率,命中率以百分比为单位。具体来说,命中率计算公式为:命中率命中率=(=(模型完全命中的题目数量模型完全命中的题目数量 总题目数量总题目数量)100%100%18Supe
44、rCLUE-Hard:精确指令遵循数据集精确指令遵循精确指令遵循主要考察模型的指令遵循能力,要求AI严格按照给定的指令进行回复,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。测评方法问题:问题:请撰写一篇关于“智能家居技术如何改善日常生活”的文章,要求包含“便捷”、“安全”和“节能”三个词语,其中“便捷”至少出现3次,“安全”必须只出现5次,而“节能”最多出现2次。请确保文章只出现4个段落(不要出现标题),每个段落之间用符号分隔。其中第3段的第8个汉字必须是“效”字。另外,请确保文章恰好由15个句子(用中文句号或问号或感叹号分隔)组成,并且第10个句子的第11个汉字必
45、须是“感”字。回答:回答:智能家居技术正在迅速改变我们的日常生活。通过智能设备,家庭成员可以享受到前所未有的便捷。无论是控制灯光、调节温度,还是管理家电,只需一个指令就能轻松完成。这种便捷不仅提高了生活质量,还节省了大量时间。安全是智能家居技术的另一个重要优势。智能门锁和监控系统可以实时监控家庭安全,确保家人和财产的安全。当检测到异常情况时,系统会立即发出警报,并通知相关人员。这种安全措施大大降低了家庭被盗或发生意外的风险。智能家居技术还能能带来显著的效能提升。通过智能温控系统,家庭可可以自动调节室内温度,确保舒适的同时,还能节能。节能。智能照明系统可以根据光线和时间自动调整亮度,进一步减少能
46、源消耗。这种节能节能措施不仅环保,还能降低电费支出。总的来说,智能家居技术通过提供便捷、安全和节能节能的解决方案,极大地改善了日常生活。随着技术的不断进步,未来智能家居将变得更加智能和人性化,为人们带来更多便利和舒适感。评价打分:评价打分:未遵循指令内容:“节能”出现3次,第3段的第8个汉字是“能”字,文章只有14个句子,并且第10个句子的第11个汉字是“可”字。测评结果:测试不通过测试不通过示例Hard测评说明2(深度推理)19SuperCLUE-Hard:深度推理数据集深度推理深度推理主要考察模型在复杂任务中的多步推理能力。复杂任务推理涉及在多个变量和条件下进行逻辑推理。测评方法问题:问题
47、:家具厂生产三种家具:椅子、桌子和书架。-生产一单位椅子需要1.5小时的组装时间、2公斤的木材和0.5小时的涂装时间;-生产一单位桌子需要2.5小时的组装时间、4公斤的木材和1小时的涂装时间;-生产一单位书架需要2小时的组装时间、3公斤的木材和0.8小时的涂装时间。家具厂每天可用的最大资源为:120小时的组装时间、80公斤的木材和50小时的涂装时间。椅子的利润为每单位25元,桌子的利润为每单位60元,书架的利润为每单位40元。此外,家具厂必须至少生产10个单位的椅子、5个单位的桌子和8个单位的书架。家具厂应如何安排生产数量,以最大化利润?家具厂应如何安排生产数量,以最大化利润?模型模型回答:回
48、答:要解决这个问题,我们需要使用线性规划的方法,找到在给定的资源限制下,使利润最大的产品组合。以下是详细的步骤:*第一步:定义决策变量*:;*第二步:建立目标函数*:*第三步:建立约束条件*:;*第四步:求解线性规划问题*:*第五步:分析约束条件*:*第六步:寻找增加利润的机会*:*第十一步:得出结论*:(由于篇幅有限,模型回答省略具体内容,仅展示关键步骤)评价打分:评价打分:1.基于标准1的:AI助手的回答完全符合用户的意图,详细解释了如何最大化利润,并提供了完整的线性规划模型。基于标准1的得分:5分;2.基于标准2的:AI助手的推理过程准确,步骤清晰,逻辑合理,且与参考答案一致。基于标准2
49、的得分:5分;3.基于标准3的:AI助手的结论与参考答案完全一致,给出了具体的生产数量和最大利润。基于标准3的得分:5分;综合以上,综合以上,AIAI助手的回答的综合得分(平均分)为助手的回答的综合得分(平均分)为55示例评测流程:评测流程:我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。【深度推理】任务设定的评价标准包括:符合基本要求、推理准确性、结论合理性。假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分:因此,该题目的具体得分为4分。最后,将所有题目的得分进行
50、归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。Hard测评说明3(Agent)20SuperCLUE-Hard:Agent数据集AgentAgent主要考察在中文场景下基于可执行的环境,LLM作为执行代理,在多轮对话中调用工具完成任务的能力。测评方法描述:描述:本次Agent测评共包含8个API,本题用到两个API。车辆控制系统:该工具属于车辆控制系统,允许用户控制汽车的各个方面,如发动机、车门、空调控制、灯光等。消息API:该工具属于消息API,该消息用于管理工作空间中的用户交互。promptprompt:你是一个组合函数完成任务的专家。你将会收
51、到一个问题和一些可以调用的函数及其描述。基于问题,你需要调用一个或者多个函数来实现问题要求。如果使用你收到的函数无法完成问题要求,请指出。如果你收到的问题缺乏调用函数所必要的参数,也请指出。在你的回答中只应该包括函数调用(function calls)内容,而不应该包括其他内容。在每一轮对话中,你应该尽最大努力完成用户当前提出的任务。下面提供了一个列表,列表中是一些你可以调用的函数以及函数的功能和参数描述,使用下面提供了一个列表,列表中是一些你可以调用的函数以及函数的功能和参数描述,使用jsonjson格式格式【第一轮问题】:今天下雨了,帮我把车灯设置为“on”模式,确保视线清楚。【模型回复1
52、】:setHeadlights(mode=on)【模型得到的反馈】:第1个函数调用:setHeadlights(mode=on),执行返回结果为:headlightStatus:on【模型回复2】:好的,我已经将车灯设置为“on”模式。【第四轮问题】:】:看来需要加油了,帮我把油加满吧。然后再发条消息给小红说“今天路上有点堵车,可能会晚一点到。”【模型回复1】:fillFuelTank(fuelAmount=33.5),get_user_id(user=小红)【模型得到的反馈1】:】:第1个函数调用:fillFuelTank(fuelAmount=33.5),执行返回结果为:fuelLevel
53、:50.0,第2个函数调用:get_user_id(user=小红),执行返回结果为:user_id:USR032【模型回复2】:send_message(receiver_id=USR032,message=今天路上有点堵车,可能会晚一点到。)【模型得到的反馈2】:】:第1个函数调用:send_message(receiver_id=USR032,message=今天路上有点堵车,可能会晚一点到。),执行返回结果为:sent_status:true,message_id:new_id:67410,message:Message sent to USR032 successfully.【模型回
54、复3】:我已经把油加满了,并给小红发了消息。还有什么需要帮忙的吗?【第八轮问题】:有点热了,把空调温度调低一点,调到24摄氏度就行,风速设置为80,模式为制冷。【模型回复1】:adjustClimateControl(temperature=24.0,fanSpeed=80,mode=cool)【模型得到的反馈】:第1个函数调用:adjustClimateControl(temperature=24.0,fanSpeed=80,mode=cool),执行返回结果为:currentACTemperature:24.0,climateMode:cool,humidityLevel:45.0【模型回
55、复2】:好的,空调已设置为制冷模式,温度为24摄氏度,风速为80。(本题共八轮对话,此处省略了其余多轮对话,并由于篇幅限制,只展示关键信息)示例评测流程:评测流程:每一题包含N N轮轮对话,只有每一轮对话都回复正确才能记每一轮对话都回复正确才能记1 1分。分。我们将模型回复的函数调用进行实际执行后判定是否回复正确。评价维度包括:函数调用执行结果、函数调用执行结果、执行后的系统状态。执行后的系统状态。对于每一轮模型回复的评价方法:1.获取模型答案之后,从中提取可执行可执行的函数调用。2.执行提取的函数调用得到执行结果集1,以及执行后的系统状态1;3.执行人类标注的ground truth(函数调
56、用)得到执行结果集2,系统状态2;4.将执行结果集1与执行结果集2进行比较,系统状态1和系统状态2进行比较;如果执行结果集2是执行结果集1的子集,系统状态1和系统状态2相同则认为模型的本轮回复正确。最后,计算答对的题目的比例,转化为百分制得到模型的总分。即:模型得分模型得分=(答对的题目数量(答对的题目数量/总题目数量)总题目数量)*100100本次测评数据选取了SuperCLUE-1SuperCLUE-12 2月月测评结果,模型选取了国内外有代表性的4 42 2个大模型个大模型在在1 12 2月份的版本月份的版本。测评模型列表21模型模型机构机构简介简介模型模型机构机构简介简介1.o1Ope
57、nAIOpenAI在2024年12月17日发布的o1正式版本,使用方式为官网网页22.TeleChat2-LargeTeleAI 官方提供的小范围内测版本,使用方式为API2.o1-previewOpenAIOpenAI在2024年9月12日发布的版本,使用官方API:o1-preview-2024-09-1223.ERNIE-4.0-Turbo-8K-Latest百度百度文心系列的语模型,使用官方API:ERNIE-4.0-Turbo-8K-Latest3.ChatGPT-4o-latestOpenAI与ChatGPT上的GPT-4o同版本,对应OpenAI官方的API名称:chatgpt-
58、4o-latest24.Baichuan4百川智能官方提供的小范围内测版本,使用方式为API4.SenseChat 5.5-latest商汤官方提供的小范围内测版本,使用方式为API25.GPT-4o-miniOpenAIOpenAI在2024年7月18日发布的gpt-4o-mini版本,使用官方API5.DeepSeek-V3深度求索深度求索在2024年12月26日发布的V3版本,使用官方的API:deepseek-chat26.kimiKimi官方网页版产品【kimi】6.Gemini-2.0-Flash-ExpGoogle官方在2024年12月11日发布的Gemini 2.0 Flash
59、模型的实验版本。27.Llama-3.3-70B-InstructMetaMeta发布的Llama3.3版本70B开源模型,调用的together.ai的接口7.Claude 3.5 Sonnet(20241022)AnthropicAntropic在2024年10月22日发布的版本,使用API:claude-3-5-sonnet-2024102228.TeleChat2-35BTeleAI 官方开源的TeleChat2-35B-32K版本8.360zhinao2-o1360官方公开的推理模型,使用方式为API,原360gpt2-o1。29.Qwen2.5-7B-Instruct阿里巴巴Qwe
60、n2.5开源系列7B模型。使用阿里云公开API:qwen2.5-7b-instruct9.Doubao-pro-32k-241215字节跳动在2024年12月15日发布的版本,使用API:Doubao-pro-32k-24121530.QwQ-32B-Preview阿里巴巴专注于增强 AI 推理能力。使用阿里云公开API:qwq-32b-preview10.NebulaCoder-V5中兴通讯官方提供的小范围内测版本,使用方式为API31.讯飞星火V4.0科大讯飞科大讯飞发布的API版本:Spark4.0 Ultra11.Qwen-max-latest阿里巴巴通义千问系列效果最好的模型,使用阿
61、里云公开的API:qwen-max-latest32.GLM-4-9B-Chat智谱AI官方开源的GLM-4-9B-Chat版本12.Qwen2.5-72B-Instruct阿里巴巴Qwen2.5开源系列72B模型。使用阿里云公开的API:qwen2.5-72b-instruct33.Gemma-2-9b-itGoogle 官方开源的gemma-2-9b-it版本13.Step-2-16k阶跃星辰官方公开发布的API版本:step-2-16k34.Yi-1.5-34B-Chat-16K零一万物官方开源的Yi-1.5-34B-Chat-16K版本14.GLM-4-Plus智谱AI智谱自研的GLM
62、系列大模型最新版本,使用官方API:GLM-4-Plus35.360Zhinao2-7B-Chat-4K360官方开源的360Zhinao2-7B-Chat-4K版本15.Grok-2-1212X.AIX.AI在2024年12月12日推出的模型版本,使用官方API:grok-2-121236.Qwen2.5-3B-Instructt阿里巴巴 Qwen2.5开源系列3B模型。使用阿里云公开的API:qwen2.5-3b-instruct16.DeepSeek-R1-Lite-Preview深度求索深度求索在2024年11月20日推出的推理模型,使用方式为官网网页37.Yi-1.5-9B-Chat
63、-16K零一万物官方开源的Yi-1.5-9B-Chat-16K版本17.Qwen2.5-32B-Instruct阿里巴巴Qwen2.5开源系列32B模型。使用阿里云公开的API:qwen2.5-32b-instruct38.MiniCPM3-4B面壁智能官方开源的MiniCPM3-4B版本18.Sky-Chat-3.0昆仑万维昆仑万维发布的千亿级别 MOE(Mixture of Experts)模型,使用官方API39.Llama-3.1-8B-InstructMetaMeta发布的Llama3.1版本8B开源模型,调用的together.ai的接口19.DeepSeek-V2.5深度求索深度
64、求索在2024年9月5日发布的DeepSeek-V2.5,使用官方API:deepseek-chat40.Phi-3.5-Mini-Instruct微软官方开源的Phi-3.5-Mini-Instruct版本20.MiniMax-abab7-previewMiniMax官方提供的小范围内测版本,使用官方提供的API接口41.Gemma-2-2b-itGoogle 官方开源的gemma-2-2b-it版本21.Hunyuan-Turbo腾讯官方在12月份对外试用的Hunyuan-Turbo预览版,后续将逐步开放公开使用。42.Mistral-7B-Instruct-v0.3Mistral AI官
65、方开源的Mistral-7B-Instruct-v0.3版本第3部分 总体总体测评结果测评结果与分析与分析221.SuperCLUE通用能力测评总分2.SuperCLUE模型象限(2024)3.历月SuperCLUE大模型Top34.一级维度表现5.二级细粒度分数11.SuperCLUE-文科成绩12.国内大模型成熟度-SC成熟度指数13.评测与人类一致性验证6.九大任务年度Top57.SuperCLUE大模型综合效能区间分布8.SuperCLUE性价比区间分布9.SuperCLUE-Hard成绩10.SuperCLUE-理科成绩海外及其他对海外及其他对比模型比模型国内模型国内模型国内外通用国
66、内外通用大模型大模型SuperCLUE基准榜单基准榜单来源:SuperCLUE,2025年1月8日;注:由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示为并列中高分。海外模型仅对比参考不参与排名;国内部分厂商由于版本众多,本次测评仅选择一部分代表性模型参与排名,其余模型仅做参考,不参与排名。SuperCLUE通用能力测评总分23基 础基 础 能 力能 力应应用用能能力力潜力探索者技术领跑者实用主义者卓越领导者ERNIE-4.0-Turbo-8K-LatestERNIE-4.0-Turbo-8K-Latest(百度)Qwen-max-
67、latestQwen-max-latest(阿里)ChatGPT-4o-latestChatGPT-4o-latest(OpenAI)注:1.两个维度的组成。基础能力包含:计算、逻辑推理、深度推理、传统安全、语言理解;应用能力包括:生成创作、代码、指令遵循、Agent能力;2.四个象限的含义。它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在探索阶段未来拥有较大潜力;【技术领跑者】代表模型在基础技术方面具备领先性;【实用主义者】代表模型在场景应用深度上具备领先性;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。来源:SuperCLUE,2025年1月8
68、日;Doubao-pro-32k-241215Doubao-pro-32k-241215(字节)SuperCLUE模型象限(2024)SenseChat 5.5-latestSenseChat 5.5-latest(商汤)QwQ-32B-PreviewQwQ-32B-Preview(阿里)24o1-previewo1-preview(OpenAI)GLM-4-PlusGLM-4-Plus(智谱)TeleChat2-LargeTeleChat2-Large(TeleAI)Claude 3.5 SonnetClaude 3.5 Sonnet(20241022)Step-2-16kStep-2-16
69、k(阶跃星辰)Hunyuan-TurboHunyuan-Turbo(腾讯)Baichuan4Baichuan4(百川智能)360zhinao2-o1360zhinao2-o1(360)GLM-4-9B-ChatGLM-4-9B-Chat(智谱)MiniCPM3-4BMiniCPM3-4B(面壁智能)Yi-1.5-9B-Chat-16KYi-1.5-9B-Chat-16K(零一万物)Gemma-2-9b-itGemma-2-9b-it(Google)Llama-3.1-8B-InstructLlama-3.1-8B-Instruct(Meta(Meta)Qwen2.5-3B-InstructQw
70、en2.5-3B-Instruct(阿里)o1o1(OpenAI)DeepSeek-V3DeepSeek-V3(深度求索)Gemini-2.0-Flash-ExpGemini-2.0-Flash-Exp(Google)Sky-Chat-3.0Sky-Chat-3.0(昆仑万维)MiniMax-abab7-previewMiniMax-abab7-previewQwen2.5-32b-InstructQwen2.5-32b-Instruct(阿里)KimiKimi(月之暗面)DeepSeek-V2.5DeepSeek-V2.5(深度求索)TeleChat2-35BTeleChat2-35B(Te
71、leAI)GPT-4o-miniGPT-4o-mini(OpenAI)Qwen2.5-7B-InstructQwen2.5-7B-Instruct(阿里)Mistral-7B-Instruct-v0.3Mistral-7B-Instruct-v0.3Gemma-2-2b-itGemma-2-2b-it(Google)Phi-3.5-Mini-InstructPhi-3.5-Mini-Instruct(微软)Yi-1.5-34B-Chat-16KYi-1.5-34B-Chat-16K(零一万物)360Zhinao2-7B-Chat-4K360Zhinao2-7B-Chat-4K(360)讯飞星火
72、讯飞星火V4.0V4.0(科大讯飞)Grok-2-1212Grok-2-1212(X.AI)NebulaCoder-V5NebulaCoder-V5(中兴)Llama-3.3-70B-InstructLlama-3.3-70B-Instruct(Meta)Qwen2.5-72B-InstructQwen2.5-72B-Instruct(阿里)SuperCLUE模型象限(2024)2023-2024年SuperCLUE基准国内外大模型Top325月份月份国内国内国内国内国内国内海外海外Top320242024年年1212月月D De ee ep pS Seekeek-V-V3 3、SenseCh
73、at 5.5-latestSenseChat 5.5-latest、360gpt2-o1360gpt2-o1Doubao-pro-32k-241215Doubao-pro-32k-241215、NebulaCoder-V5NebulaCoder-V5、Qwen-max-latestQwen-max-latestStep-2-16kStep-2-16k、GLM-4-PlusGLM-4-Pluso1o1、o1-previewo1-preview、ChatGPT-4o-latestChatGPT-4o-latest2024年10月GLM-4-Plus、SenseChat 5.5、AndesGPT-2
74、.0、Qwen2.5-72B-Instruct(并列)Hunyuan-Turbo、360gpt2-pro、Step-2、DeepSeek-V2.5、Doubao-proBaichuan4、山海大模型4.0、TeleChat2-Largeo1-preview、Claude 3.5 Sonnet(20241022)、ChatGPT-4o-latest2024年8月Hunyuan-Turbo-PreviewAndesGPT-2.0、DeepSeek-V2-0628Qwen2-72B-Instruct、SenseChat 5.5、Doubao_pro_previewChatGPT-4o-latest、
75、GPT-4-Turbo-2024-04-09、Claude 3.5 Sonnet2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPTGPT-4o、Claude-3.5-Sonnet-200k、GPT-4-Turbo-04092024年4月Baichuan3GLM-4、通义千问2.1腾讯Hunyuan-pro、文心一言4.0GPT-4-Turbo-0125、GPT-4-Turbo-0409、GPT-4(官网)2024年2月文心一言4.0GLM-4通义千问2.1GPT4-Turbo-0125、GPT4(网页)、Claude22023
76、年12月文心一言4.0 通义千问2.0AndesGPTGPT4-Turbo、GPT4(网页)、Claude22023年11月文心一言4.0 MoonshotYi-34B-ChatGPT4-Turbo、GPT-4、Claude22023年10月BlueLMMoonshot文心一言4.0 GPT4、Claude2、GPT3.52023年9月SenseChat3.0文心一言(网页v2.3.1)ChatGLM2-ProGPT4、gpt-3.5-turbo、Claude22023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(网页v2.2.3)GPT4、gpt-3.5-tu
77、rbo、Claude22023年7月文心一言(网页v2.2.0)ChatGLM-130B讯飞星火V1.5GPT4、Claude2、gpt-3.5-turbo2023年6月360智脑文心一言讯飞星火GPT4、gpt-3.5-turbo、Claude2023年5月360智脑讯飞星火ChatGLM-130BGPT4、gpt-3.5-turbo、ClaudeSuperCLUE通用能力测评:一级维度表现26SuperCLUE-SuperCLUE-一级维度一级维度表现表现来源:SuperCLUE,2025年1月8日。标红分数为国内前三名。在12月SuperCLUE测评中,国内外模型仍有一定差距。o1o1取
78、得取得80.480.4分领跑全球,分领跑全球,o1-previewo1-preview、ChatGPT-4o-latestChatGPT-4o-latest紧随其后有超出紧随其后有超出7070分的表现。分的表现。国内大模型DeepSeek-V3、SenseChat 5.5-latest取得68.3分领跑国内大模型,有超出Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)的表现。国内大模型360zhinao2-o1、Doubao-pro-32k-241215、NebulaCoder-V5、Qwen-max-latest、Step-2-16k、GLM-
79、4-Plus紧随其后,有超过65分的表现。位列国内Top10的模型还有MiniMax-abab7-preview、Hunyuan-Turbo、TeleChat2-Large、Sky-Chat-3.0、ERNIE-4.0-Turbo-8K-Latest,均有不俗表现。测 评 分 析测 评 分 析1.DeepSeek-V31.DeepSeek-V3等国内头部大模型,在中文场景下优于等国内头部大模型,在中文场景下优于Claude 3.5 Sonnet(20241022)Claude 3.5 Sonnet(20241022),接,接近近ChatGPT-4o-latestChatGPT-4o-lates
80、t,较较o1o1尚有较大差距。尚有较大差距。国内头部模型如SenseChat 5.5-latest、NebulaCoder-V5、MiniMax-abab7-preview在文科任务上有超出80分的表现,较海外顶尖模型有一定优势。在理科任务上国内表现最好的Doubao-pro-32k-241215取得72.3分,与o1相差15分,仍有不小差距。在Hard高挑战性任务上o1(76.7分)展现出了卓越性能,较国内最高分DeepSeek-V3(54.8分)高21.9分。2.2.国内国内头部大头部大模型在文科任务上模型在文科任务上有一定领先性有一定领先性,在,在理科、理科、HardHard高难度任务上
81、与海外头部模型高难度任务上与海外头部模型差差距较大。距较大。SuperCLUE通用能力测评:二级细粒度分数来源:SuperCLUE,2025年1月8日;标红分数为国内前三名。27九大任务年度Top528专项任务专项任务海外海外TOP1国内国内TOP1国内国内TOP2国内国内TOP3国内国内TOP4国内国内TOP5AgentAgentChatGPT-4o-latestStep-2-16kDeepSeek-V3Qwen2.5-72B-Instruct/360zhinao2-o1ERNIE-4.0-Turbo-8K-Latest指令遵循指令遵循o1Qwen-max-latestTeleChat2-L
82、argeDeepSeek-V3SenseChat 5.5-latest/Sky-Chat-3.0深度推理深度推理o1Baichuan4360zhinao2-o1DeepSeek-V3QwQ-32B-PreviewSenseChat 5.5-latest代码代码o1Doubao-pro-32k-241215DeepSeek-R1-Lite-PreviewDeepSeek-V2.5DeepSeek-V3SenseChat 5.5-latest360zhinao2-o1计算计算o1SenseChat 5.5-latestDeepSeek-V3360zhinao2-o1/NebulaCoder-V5D
83、oubao-pro-32k-241215逻辑推理逻辑推理o1360zhinao2-o1DeepSeek-V3Doubao-pro-32k-241215SenseChat 5.5-latestGLM-4-Plus语言理解语言理解ChatGPT-4o-latestDeepSeek-V3DeepSeek-R1-Lite-PreviewTeleChat2-LargeQwen2.5-72B-Instruct/GLM-4-PlusMiniMax-abab7-preview生成创作生成创作ChatGPT-4o-latestHunyuan-TurboNebulaCoder-V5MiniMax-abab7-pr
84、eviewQwen2.5-72B-InstructDeepSeek-V3传统安全传统安全ChatGPT-4o-latestSenseChat 5.5-latestNebulaCoder-V5Hunyuan-TurboStep-2-16kSky-Chat-3.0/来源:SuperCLUE,2025年1月8日;注:专项任务排名中,当出现并列排名的情况(如并列第二),则后续排名依次顺延(第三名自动空缺)。SuperCLUE大模型综合效能区间分布数据来源:SuperCLUE,2025年1月8日;模型推理速度选取12月测评中具有公开API的模型。平均推理时间为所有测评数据推理时间的平均值(秒)。大 模
85、型 推 理 效 能大 模 型 推 理 效 能 区 间区 间趋势分析趋势分析国产模型中,DeepSeek-V3和Qwen2.5-32B-Instruct推理速度表现优异,平均每题推理时间在10s以内,同时基准得分在60分以上,符合高效能区,展现了极强的应用效能。1.1.部分国产模型在综合效能上很有竞争力部分国产模型在综合效能上很有竞争力海外模型Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)、Grok-2-1212和GPT-4o-mini符合高效能区,其中Gemini-2.0-Flash-Exp在推理时间和基准得分的综合效能上表现最为出色。GPT-
86、4o-mini在推理速度上表现最优。2.Gemini-2.0-Flash-Exp2.Gemini-2.0-Flash-Exp引领全球大模型应用效能引领全球大模型应用效能以o1-preview为代表的推理模型虽然在基准得分上表现出色,但每题平均推理时间约40s,综合效能符合低效能区。推理模型若要有广泛的应用场景,需要在推理速度上着重提升。3.3.推理模型在效能上表现有较大优化空间推理模型在效能上表现有较大优化空间29SuperCLUE性价比区间分布趋势分析趋势分析数据来源:SuperCLUE,2025年1月8日;注:部分模型API的价格是分别基于输入和输出的 tokens 数量确定的。这里我们依
87、照输入 tokens 与输出 tokens 3:1 的比例来估算其整体价格。价格信息取自官方在12月底的标准价格(非优惠价格)。大 模 型 性 价 比 分 布大 模 型 性 价 比 分 布国产大模型如DeepSeek-V3、Qwen2.5-72B-Instruct和Qwen2.5-32B-Instruct在性价比上展现出极强的竞争力。在较为高水平的能力基础上能够保持极低的应用成本,在应用落地方面展现出友好的可用性。1.1.国产大模型在性价比(价格国产大模型在性价比(价格+效果效果)上有较大优势)上有较大优势大部分模型为了保持较高的能力水平,价格方面仍处于高位。如GLM-4-Plus、Qwen-
88、Max-latest、Claude 3.5 Sonnet、Grok-2-1212价格方面均处于30元/百万Tokens以上。2.2.大部分模型处于中度性价比区间大部分模型处于中度性价比区间虽然o1和o1-preview展现出很高的能力水平,但在价格方面较其他模型高出数倍。如何降低成本或许成为推理模型广泛应用的首要问题。3.o13.o1等推理模型性价比等推理模型性价比尚有较大优化空间尚有较大优化空间30国内外推理模型能力对比31国 内 外国 内 外 推 理 模 型 能 力 对 比推 理 模 型 能 力 对 比趋势分析趋势分析对比国内外推理模型测评结果可以发现,o1有较大领先优势。在推理相关的五个
89、任务中,均有不同程度的领先。1.1.国内外推理模型差距较大国内外推理模型差距较大在逻辑推理任务中,o1领先国内最好推理模型15.7分;在深度推理任务中,o1的领先幅度提升到20分以上。说明随着推理难度的增加,越好的推理模型的领先幅度会越大。2.2.随着推理难度的增加,随着推理难度的增加,o1o1的领先幅度会增大的领先幅度会增大在Agent任务上,推理模型的表现区分性较大。o1有近80分的表现,而QwQ-32B-Preview则相对落后,仅有15%的任务完成率。3.3.推理模型在推理模型在AgentAgent智能体的表现区分性较大智能体的表现区分性较大数据来源:SuperCLUE,2025年1月
90、8日;SuperCLUE-Hard成绩32SuperCLUE-Hard榜单榜单来源:SuperCLUE,2025年1月8日;注:由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示为并列中高分。排名排名模型模型分数分数-o176.7-o1-preview63.6-ChatGPT-4o-latest57.8-Gemini-2.0-Flash-Exp55.51DeepSeek-V354.8-Claude 3.5 Sonnet(20241022)54.62SenseChat 5.5-latest、360zhinao2-o1、Qwen-max-
91、latest、Doubao-pro-32k-24121551.53Step-2-16k50.0-Qwen2.5-72B-Instruct49.7-Grok-2-121249.24NebulaCoder-V5、GLM-4-Plus48.65ERNIE-4.0-Turbo-8K-Latest、Baichuan445.6-DeepSeek-V2.545.36Sky-Chat-3.0、kimi44.57TeleChat2-Large、MiniMax-abab7-preview、43.3-GPT-4o-mini42.8-Llama-3.3-70B-Instruct38.88Hunyuan-Turbo、T
92、eleChat2-35B38.69Qwen2.5-7B-Instruct35.710GLM-4-9B-Chat31.611QwQ-32B-Preview26.6-Gemma-2-9b-it22.7-Llama-3.1-8B-Instruct20.912Yi-1.5-34B-Chat-16K、Yi-1.5-9B-Chat-16K、讯飞星火V4.020.613Qwen2.5-3B-Instruct18.614360Zhinao2-7B-Chat-4K17.5-Phi-3.5-Mini-Instruct14.015MiniCPM3-4B13.7-Gemma-2-2b-it、Mistral-7B-In
93、struct-v0.311.81.1.o1o1在中文在中文HardHard高挑战性任务上具有大幅领先性,领跑全球顶尖大模型。高挑战性任务上具有大幅领先性,领跑全球顶尖大模型。在12月SuperCLUE-Hard测评中,国内外模型仍有一定差距。o1o1取得取得76.776.7的高分,是全球唯的高分,是全球唯一超过一超过7070分的大模型,大幅领跑全球顶尖模型。分的大模型,大幅领跑全球顶尖模型。o1-preview取得63.6分紧随其后。其余所有模型均未超过60分。2.2.国内大模型国内大模型DeepSeek-V3DeepSeek-V3在中文在中文HardHard高挑战性任务上超过高挑战性任务上超
94、过Claude 3.5 SonnetClaude 3.5 Sonnet,接,接 近近ChatGPT-4o-latestChatGPT-4o-latest DeepSeek-V3在12月SuperCLUE-Hard上取得54.8分,领跑国内大模型。接近ChatGPT-4o-latest、Gemini-2.0-Flash-Exp,略有超过Claude 3.5 Sonnet(20241022)。国内大模型SenseChat 5.5-latest、360zhinao2-o1、Qwen-max-latest、Doubao-pro-32k-241215、Step-2-16k紧随其后,分列国内大模型第2、3
95、名(含并列)。测 评 分 析测 评 分 析 国内头部平均水平在国内头部平均水平在HardHard上还有优化空间上还有优化空间 对比国内外头部模型Hard能力数据可以看到,国外前三名模型的国外前三名模型的HardHard得分相较于国得分相较于国内前三名平均高出内前三名平均高出13.513.5分。分。Hard能力是具有高难度的、高挑战的任务,具有较高区分性,是国内大模型后续重点优化方向之一。国内外对比国内外对比SuperCLUE-Hard(Agent智能体)Agen tAgen t 能力榜单能力榜单海外模型国内前五名其他来源:SuperCLUE,2025年1月8日。1.ChatGPT-4o-lat
96、est1.ChatGPT-4o-latest在在AgentAgent任务上具有一定领先性任务上具有一定领先性 在12月Agent测评中,国内外模型仍有一定差距。ChatGPT-4o-latest取得80.8分,是全球唯一超过80分的大模型。o1和Gemini-2.0-Flash-Exp紧随其后,排名全球2-3名。2.2.Step-2-16k Step-2-16k等等国内头部大模型国内头部大模型在在AgentAgent任务上超过任务上超过Claude 3.5 SonnetClaude 3.5 Sonnet,接近,接近Gemini-2.0-Flash-ExpGemini-2.0-Flash-Exp
97、 Step-2-16k在12月Agent智能体测评中取得75.0分,领跑国内大模型。接近Gemini-2.0-Flash-Exp。国内大模型DeepSeek-V3、SenseChat 5.5-latest,并列第2名。3.3.在在AgentAgent任务上,推理模型任务上,推理模型并未展现出绝对的并未展现出绝对的优势优势 推理模型o1的得分略低于ChatGPT-4o-latest,Deepseek_R1-Lite-Preview处于中下游位置,Qwen-32B-Preview处于下游位置。推理模型在Agent任务上仍然有待加强。测 评 分 析测 评 分 析 国内头部平均水平在国内头部平均水平在
98、AgentAgent任务任务上还有优上还有优化空间化空间 对比国内外头部模型Agent能力数据可以看到,国外前三名模型的国外前三名模型的AgentAgent得分相较于国得分相较于国内前三名平均高出内前三名平均高出5.35.3分。分。Agent能力是较为复杂的任务,具有较高区分性,是应用落地的关键能力。国内外对比国内外对比33SuperCLUE-Hard(深度推理+指令遵循)34深度推理能力榜单海外模型国内前五名其他来源:SuperCLUE,2025年1月8日。指 令 遵 循 榜 单海外模型国内前五名其他来源:SuperCLUE,2025年1月8日。【第一轮问题第一轮问题】:在当前目录中新建一个
99、名为“Chinese.txt”的文件。【模型回复1】:touch(file_name=Chinese.txt)【模型得到的反馈1】:第1个函数调用:touch(file_name=Chinese.txt),执行返回结果为:None【模型回复2】:open(file_name=Chinese.txt,mode=r)【模型得到的反馈2】:第1个函数调用:open(file_name=Chinese.txt,mode=r),执行返回结果为:Error during execution:open()missing required argument file(pos 1)【模型回复14】:open(f
100、ile=Chinese.txt,mode=r),read(file=Chinese.txt),len(content)【模型得到的反馈14】:第1个函数调用:open(file=Chinese.txt,mode=r),执行返回结果为:第2个函数调用:read(file=Chinese.txt),执行返回结果为:Error during execution:name read is not defined第3个函数调用:len(),执行返回结果为:Error during execution:len()takes exactly one argument(0 given)【模型回复15】:wit
101、h open(file=Chinese.txt,mode=r)as f:content=f.read(),len(content)注注:第一轮对话失败第一轮对话失败,共三轮对话共三轮对话。此题不得分此题不得分。示例:Agent你是一个组合函数完成任务的专家。你将会收到一个问题和一些可以调用的函数及其描述。基于问题,你需要调用一个或者多个函数来实现问题要求。如果使用你收到的函数无法完成问题要求,请指出。如果你收到的问题缺乏调用函数所必要的参数,也请指出。在你的回答中只应该包括函数调用(function calls)内容,而不应该包括其他内容。下面提供了一个列表,列表中是一些你可以调用的函数以及函
102、数的功能和参数描述,使用json格式。问题问题DeepSeek-V3Step-2-16k较差模型较差模型35【第一轮问题第一轮问题】:在当前目录中新建一个名为“Chinese.txt”的文件。【模型回复1】:touch(file_name=Chinese.txt)【模型得到的反馈1】:第1个函数调用:touch(file_name=Chinese.txt),执行返回结果为:None【模型回复2】:ls()【模型得到的反馈2】:第1个函数调用:ls(),执行返回结果为:current_directory_content:Chinese.txt【模型回复3】:任务已完成。文件“Chinese.tx
103、t”已成功创建在当前目录中。【第二轮问题第二轮问题】:在“Chinese.txt”文件里,我想记下一些关键的提醒信息:“学习语言不是一蹴而就的事情,尤其是中文。这是一个漫长但有趣的过程。”【模型回复1】:echo(content=学习语言不是一蹴而就的事情,尤其是中文。这是一个漫长但有趣的过程。,file_name=Chinese.txt)【模型得到的反馈1】:第1个函数调用:echo(content=学习语言不是一蹴而就的事情,尤其是中文。这是一个漫长但有趣的过程。,file_name=Chinese.txt),执行返回结果为:None【模型回复2】:任务已完成。提醒信息已成功写入“Chin
104、ese.txt”文件中。【第三轮问题第三轮问题】:我想知道“Chinese.txt”文件内容中有多少个字符。【模型回复1】:wc(file_name=Chinese.txt,mode=c)【模型得到的反馈1】:第1个函数调用:wc(file_name=Chinese.txt,mode=c),执行返回结果为:count:33,type:characters【模型回复2】:任务已完成。“Chinese.txt”文件内容中共有33个字符。【第一轮问题第一轮问题】:在当前目录中新建一个名为“Chinese.txt”的文件。【模型回复1】:touch(file_name=Chinese.txt)【模型得
105、到的反馈1】:第1个函数调用:touch(file_name=Chinese.txt),执行返回结果为:None【模型回复2】:任务已完成。【第二轮问题第二轮问题】:在“Chinese.txt”文件里,我想记下一些关键的提醒信息:“学习语言不是一蹴而就的事情,尤其是中文。这是一个漫长但有趣的过程。”【模型回复1】:echo(content=学习语言不是一蹴而就的事情,尤其是中文。这是一个漫长但有趣的过程。,file_name=Chinese.txt)【模型得到的反馈1】:第1个函数调用:echo(content=学习语言不是一蹴而就的事情,尤其是中文。这是一个漫长但有趣的过程。,file_na
106、me=Chinese.txt),执行返回结果为:None【模型回复2】:任务已完成。【第三轮问题第三轮问题】:我想知道“Chinese.txt”文件内容中有多少个字符。【模型回复1】:wc(file_name=Chinese.txt,mode=c)【模型得到的反馈1】:第1个函数调用:wc(file_name=Chinese.txt,mode=c),执行返回结果为:count:33,type:characters【模型回复2】:任务已完成。文件“Chinese.txt”中共有33个字符。示例:深度推理某电商公司计划在多个城市建立物流中心和分拣中心,目标是最大化每年的订单处理能力。公司有以下条件
107、限制:-总预算为3亿元;-每个物流中心的建设成本为2000万元;-每个分拣中心的建设成本为1200万元;-每个物流中心每年可以处理5000吨订单;-每个分拣中心每年可以处理4000吨订单;-每个分拣中心最多可以服务4个物流中心;-物流中心和分拣中心的数量之比必须在2:3到3:4之间;-物流中心和分拣中心的总数不能超过30个。问题:如何分配预算和资源,以最大化每年处理的订单总量?最大化每年处理的订单总量是多少?问题问题Baichuan4QwQ-32B-Preview较差模型较差模型36 示例:精确指令遵循请撰写一篇关于古代航海技术发展的文章,内容需包含“星象”和“航海图”两个词。请在文章中详细解
108、释并列出航海技术发展的三个主要里程碑,使用“&里程碑1&”、“&里程碑2&”和“&里程碑3&”作为里程碑的占位符。请确保文章标题用$()$标记,如$(xxx)$。内容不能出现中文逗号。模型回复两个答案,并且答案之间用六个符号()将它们分开。$(古代航海技术的发展)$古代航海技术在漫长的历史演进中不断提升 利用星象辨别方向是最早且最基本的方式&里程碑1&是从盲目航行过渡到基于星象进行较&里程碑2&是是在积累航海经验后绘制规范化航海图&里程碑3&则是船舰设计和航行装备的$(古代航海技术的三大跨越)$在古代大航行的时代 水手常以星象作为方位判断依据 同时档案式航海图的出现也逐渐成形&里程碑1&指引人
109、们合理运用星象减少&里程碑2&注重绘制并整理系统化的航海图&里程碑3&则体现在船体结构优化和工$(探索海洋的智慧:古代航海技术的发展)$自古以来人类就对浩瀚的大海充满了好奇与向往。为了征服这片未知领域人们发展出了多种多样的航海技术其中最为关键的两项当属利用星象导航以及绘制航海图了&里程碑1&早期航海者们学会了通过观察&里程碑2&随着时间推移人&里程碑3&进入中世纪以后随从最初的仰望星空到后来的绘制地图直至最$(扬帆起航:古代航海术的进步之路)$古代人类为了探索更远的地方开发出了一系列令人惊叹的航海技术其中最引人注目的是利用星象导航和制作航海图这两项技能&里程碑1&最初的航海者们注意&里程碑2&
110、当人们开始有意识地记录每次航行过程中遇到的情况时航海图便应运而生了。最初这&里程碑3&罗盘的发明无这三个重要节点共同推动$(Ancient Maritime Technology Development)$航海技术的发展是人类文明进步的重要标志之一。早期航海者依赖于自然现象和经验来确定方向,其中星象与航海图是两个关键因素。星象通过观察天体的位置变化,可以为航海者提供方向指引;航海图则记录了海洋地形、风向等信息,帮助航海者规划航线。这些工具古代航海技术的发展经历了几个重要的里程碑:&里程碑1&:早期航海者主要依靠观察日月星辰来确定方位。他们发现,&里程碑2&:到了中世纪,&里程碑3&:随着航海技
111、术和航海图的不断进步,(古代航海技术发展)展示了人类智慧如何结合自然规律与科技手段,推动了航海事业的进步。问题问题o1Qwen-max-latest较差模型较差模型37注:错误原因为不满足以下条件注:错误原因为不满足以下条件1.内容不能出现中文逗号2.第二个答案只有一段错误内容SuperCLUE-理科成绩38SuperCLUE-理科理科榜单榜单来源:SuperCLUE,2025年1月8日;注:由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示为并列中高分。排名排名模型模型分数分数-o187.3-o1-preview80.6-Gemin
112、i-2.0-Flash-Exp、ChatGPT-4o-latest72.61Doubao-pro-32k-241215、360zhinao2-o1、DeepSeek-V3、SenseChat 5.5-latest72.3-Claude 3.5 Sonnet(20241022)71.4-DeepSeek-R1-Lite-Preview69.72NebulaCoder-V569.53GLM-4-Plus、Hunyuan-Turbo、DeepSeek-V2.5、Qwen-max-latest68.1-Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct66.9-Grok
113、-2-1212、Llama-3.3-70B-Instruct66.84Sky-Chat-3.0、Step-2-16k、MiniMax-abab7-preview65.45TeleChat2-Large64.1-GPT-4o-mini63.36讯飞星火V4.0、Baichuan4、ERNIE-4.0-Turbo-8K-Latest61.47QwQ-32B-Preview59.88kimi58.19TeleChat2-35B55.610Qwen2.5-7B-Instruct54.411360Zhinao2-7B-Chat-4K、GLM-4-9B-Chat50.7-Gemma-2-9b-it49.5
114、12Yi-1.5-34B-Chat-16K48.213MiniCPM3-4B45.914Qwen2.5-3B-Instruct44.2-Llama-3.1-8B-Instruct、Phi-3.5-Mini-Instruct42.815Yi-1.5-9B-Chat-16K41.3-Gemma-2-2b-it36.4-Mistral-7B-Instruct-v0.331.2测 评 分 析测 评 分 析国内外对比国内外对比 国内头部平均水平在理科任务上稍国内头部平均水平在理科任务上稍弱于海外模型弱于海外模型 从国内外头部模型理科能力的对比数据看,国内模型表现稍弱于海外头部模型的表现。国内前三国内前三
115、名的理科得分相较于海外前三名平均低名的理科得分相较于海外前三名平均低8.18.1分。分。理科能力是对逻辑性要求较高的任务,可见国内模型在数理逻辑能力上已经有非常大的进展。1.1.o1o1在中文在中文理科任务上具有大幅领先性,领跑全球顶尖大模型。理科任务上具有大幅领先性,领跑全球顶尖大模型。在12月SuperCLUE-理科测评中,国内外模型仍有一定差距。o1o1取得取得87.387.3的高分,领跑全球的高分,领跑全球顶尖模型。顶尖模型。o1-preview取得80.6分紧随其后。是全球仅有的超过80分的两大模型。2.2.国内顶尖大模型如国内顶尖大模型如Doubao-pro-32k-241215D
116、oubao-pro-32k-241215在理科任务上在理科任务上接近接近ChatGPT-4o-latestChatGPT-4o-latest Doubao-pro-32k-241215、360zhinao2-o1、DeepSeek-V3和SenseChat 5.5-latest在12月SuperCLUE-理科测评中领跑国内大模型。有超过Claude 3.5 Sonnet(20241022)的表现。国内大模型NebulaCoder-V5、GLM-4-Plus、Hunyuan-Turbo、DeepSeek-V2.5、Qwen-max-latest紧随其后,分列国内大模型第2、3名(含并列)。Sup
117、erCLUE-理科(计算+逻辑推理+代码)计 算 能 力 榜 单海外模型国内前五名其他来源:SuperCLUE,2025年1月8日。39逻 辑 推 理 榜 单海外模型国内前五名其他来源:SuperCLUE,2025年1月8日。代 码 能 力 榜 单海外模型国内前五名其他来源:SuperCLUE,2025年1月8日。示例-计算问题问题SenseChat 5.5-latest360zhinao2-o1较差模型较差模型40(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)(篇幅有限省略)示例-代码from itertool
118、s import productfrom typing import Listdef task_func(grid:ListListint,T:int)-int:你是一位城市规划师,负责设计一个城市的公共交通网络。城市被划分为一个二维网格,每个格子代表一个区域,每个区域有一个高度值(表示其海拔)。为了方便市民出行,你需要在相邻的区域之间铺设交通线路(水平或竖直相邻的格子之间)。然而,出于成本考虑,铺设线路的区域之间的高度差不能超过一个给定的阈值 T。计算可以铺设的最多交通线路数量。参数:-grid:二维列表,表示城市网格的高度。-T:整数,表示允许的最大高度差。返回值:-整数,表示可以铺设的最
119、多交通线路数量。from typing import Listdef task_func(grid:ListListint,T:int)-int:rows=len(grid)cols=len(grid0)if rows 0 else 0 count=0#检查水平相邻的格子 for i in range(rows):for j in range(cols-1):if abs(gridij-gridij+1)=T:count+=1#检查垂直相邻的格子 for i in range(rows-1):for j in range(cols):if abs(gridij-gridi+1j)int:m,n
120、=len(grid),len(grid0)count=0 for i,j in product(range(m),range(n):if i m-1 and abs(gridij-gridi+1j)=T:count+=1 if j n-1 and abs(gridij-gridij+1)int:rows,cols=len(grid),len(grid0)directions=(0,1),(1,0),(0,-1),(-1,0)visited=False*cols for _ in range(rows)max_routes=0 def dfs(r,c):stack=(r,c)while stac
121、k:r,c=stack.pop()for dr,dc in directions:nr,nc=r+dr,c+dc if 0=nr rows and 0=nc cols and not visitednrnc and abs(gridnrnc-gridrc)0.9)2生成与创作76.269.60.91 3逻辑推理71.058.90.83 中成熟度(0.7-0.9)4传统安全86.471.20.82 5计算78.262.60.80 6深度推理60.241.90.70 低成熟度(0.3-0.7)7代码75.242.20.56 8指令遵循35.714.00.39 9Agent75.05.00.07 极
122、低成熟度(0.3)45 Chatbot Arena是当前英文领域较为权威的大模型排行榜,由LMSYS Org开放组织构建,它以公众匿名投票的方式,对各种大型语言模型进行对抗评测。将SuperCLUE得分与ChatBot Arena得分进行相关性计算,得到皮尔逊相关系数:皮尔逊相关系数:0.920.92,P P值:值:1.84e-071.84e-07;斯皮尔曼相关系数:斯皮尔曼相关系数:0.930.93,P P值:值:9.33e-089.33e-08;说明SuperCLUE基准测评的成绩,与人类对模型的评估(以大众匿名投票的Chatbot Arena为典型代表),具有高度一致性高度一致性。评测与
123、人类一致性验证1:对比Chatbot Arena46来源:SuperCLUE,2025年1月8日;模型列表模型列表可靠性可靠性模型197.56%模型296.07%模型395.50%模型495.28%最终可靠性最终可靠性96.10%96.10%12月SuperCLUE采用自动化评价的测评方式。为验证自动化评价的可靠性,SuperCLUE团队在进行正式测评之前,从1325道题目中针对4个模型,每个模型随机抽取了113道题目进行人工复审。人类按照相同的评价标准,对每道题目进行评价。统计人类评分与模型评分在所有题目上的平均差距,最终计算得到可靠性。最终各模型可靠性指标结果如下:注:最终可靠性=sum(
124、人类评分-模型评分)/总题目量通过4个模型的可靠性分析验证,我们发现可靠性数据分别为97.56%、96.07%、95.50%、95.28%,其中可靠性最低有95.28%,最高为模型的97.56%。最终有96.10%的可靠性。所以,经过验证,SuperCLUE自动化评价有较高的可靠性。有较高的可靠性。可靠性验证说明验证结果评测与人类一致性验证2:对比人工评估47第4部分 开源模型进展评估开源模型进展评估481.开源模型榜单 2.10B级别小模型榜单 3.端侧5B级别小模型榜单开源模型榜单SuperCLUE开源榜单开源榜单来源:SuperCLUE,2025年1月8日;注:由于部分模型分数较为接近,
125、为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列。其中模型参数量数据来源于官方披露,若模型为 MoE 架构,以总参数量为准。开源模型分析开源模型分析 中文场景下,国内开源模型已具备较大优势中文场景下,国内开源模型已具备较大优势DeepSeek系列开源模型、Qwen系列开源模型,在12月SuperCLUE测评中表现优异,均有超过Llama-3.3-70B-Instruct的表现,引领全球开源生态。排名排名模型模型机构机构参数量参数量分数分数1DeepSeek-V3深度求索6710亿68.3 2Qwen2.5-72B-Instruct阿里巴巴720亿65.4 3Qwen2.5-
126、32B-Instruct阿里巴巴320亿63.7 3DeepSeek-V2.5深度求索2360亿63.0-Llama-3.3-70B-InstructMeta700亿59.4 4TeleChat2-35BTeleAI 350亿57.1 5Qwen2.5-7B-Instruct阿里巴巴70亿55.5 6QwQ-32B-Preview阿里巴巴320亿54.3 7GLM-4-9B-Chat智谱AI90亿52.4-Gemma-2-9b-itGoogle 90亿48.6 8Yi-1.5-34B-Chat-16K零一万物340亿48.2 8360Zhinao2-7B-Chat-4K36070亿47.8 9
127、Qwen2.5-3B-Instruct阿里巴巴30亿46.1 10Yi-1.5-9B-Chat-16K零一万物90亿44.3 10MiniCPM3-4B面壁智能40亿44.2-Llama-3.1-8B-InstructMeta80亿43.9-Phi-3.5-Mini-Instruct微软38亿42.4-Gemma-2-2b-itGoogle 20亿39.2-Mistral-7B-Instruct-v0.3Mistral AI70亿33.2 4910B级别小模型榜单SuperCLUE-10B10B级别小模型榜单级别小模型榜单来源:SuperCLUE,2025年1月8日;注:由于部分模型分数较为接
128、近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示为并列中高分。10B10B级别小模型分析级别小模型分析排名排名模型模型机构机构参数量参数量分数分数1Qwen2.5-7B-Instruct阿里巴巴70亿55.5 2GLM-4-9B-Chat智谱AI90亿52.4-Gemma-2-9b-itGoogle 90亿48.6 3360Zhinao2-7B-Chat-4K36070亿47.8 4Qwen2.5-3B-Instruct阿里巴巴30亿46.1 5Yi-1.5-9B-Chat-16K零一万物90亿44.3 5MiniCPM3-4B面壁智能40亿44.2-L
129、lama-3.1-8B-InstructMeta80亿43.9-Phi-3.5-Mini-Instruct微软38亿42.4-Gemma-2-2b-itGoogle 20亿39.2-Mistral-7B-Instruct-v0.3Mistral AI70亿33.2 50 10B10B级别级别模型中,模型中,Qwen2.5-7B-InstructQwen2.5-7B-Instruct和和Gemma-2-9b-itGemma-2-9b-it分列国内外榜首分列国内外榜首在本次SuperCLUE测评中,Qwen2.5-7B-Instruct取得55.5分,取得10B以内模型的最高分,GLM-4-9B-
130、chat取得52.4分,是国内唯2超过50分的大模型。360Zhinao2-7B-Chat-4K取得47.8分排名国内第3,Qwen2.5-3B-Instruct、Yi-1.5-9B-Chat-16K分列国内4-5名。Gemma-2-9b-it取得55.48分,领跑海外10B以内模型。国内国内10B10B以内模型进展迅速,展现出极致的性价比以内模型进展迅速,展现出极致的性价比在10B以内模型中,超过50分的模型有2个,分别为Qwen2.5-7B-Instruct、GLM-4-9B-Chat均是国内大模型。展现出10B以内小参数量级模型的极致的性价比。国 内 外 对 比国 内 外 对 比 国内头
131、部国内头部10B10B以内模型平均水平领以内模型平均水平领先先于海外模型于海外模型 从国内外10B小模型能力的对比数据看,国内10B小模型有一定优势。国国内内10B10B小模型前三名模型的得分相较小模型前三名模型的得分相较于国外前三名平均高出于国外前三名平均高出6.96.9分。分。SuperCLUESuperCLUE端侧端侧5B5B级别小模型榜单级别小模型榜单来源:SuperCLUE,2025年1月8日排名排名模型模型机构机构总分总分理科理科文科文科Hard参数量参数量评测日期评测日期1Qwen2.5-3B-Instruct阿里巴巴46.1 44.2 75.5 18.6 30亿2025年1月8
132、日2MiniCPM3-4B面壁智能44.2 45.9 73.0 13.7 40亿2025年1月8日-Phi-3.5-Mini-Instruct微软42.4 42.4 70.7 14.0 38亿2025年1月8日-Gemma-2-2b-itGoogle 39.2 36.4 69.4 11.8 20亿2025年1月8日2024年端侧小模型快速发展,已在设备端侧(非云)上实现本地运行,其中PC、手机、智能眼镜、机器人等大量场景已展现出极高的落地可行性。国内端侧小模型进展迅速,相比国外小模型,国内小模型在中文场景下展现出更好的性能表现国内端侧小模型进展迅速,相比国外小模型,国内小模型在中文场景下展现出
133、更好的性能表现 Qwen2.5-3B-Instruct表现惊艳,取得总分46.1分的优异成绩,在SuperCLUE端侧5B小模型榜单中排名榜首。其中理科44.2分、文科75.5分、Hard18.6分,与同等参数量级模型Phi-3.5-Mini-Instruct相比各个维度均有不同幅度的领先,展示出小参数量级模型极高的性价比。MiniCPM3-4B小模型同样表现不俗,取得总分44.2分,有超过Gemma-2-2b-it和Phi-3.5-Mini-Instruct的效果。51端侧5B级别小模型榜单第5部分 智能体智能体AgentAgent基准基准1.AgentCLUE:可执行多轮智能体测评基准52
134、AgentCLUE:可执行多轮智能体测评基准基准说明测评流程大语言模型(LLM)近年来取得了极大的进展,在各种任务中表现出色,例如数学、推理和编程等。然而,LLM作为Agent的潜力并未被充分开发。在Agent任务中,模型通常需要在迭代工作流程中执行更复杂的任务,如自我反思和优化输出、使用工具辅助决策、制定计划以完成目标任务。为更精确评估大语言模型(LLM)作为Agent的潜力,我们推出了新的中文场景下的Agent测评 AgentCLUE。该基准基于可执行的环境该基准基于可执行的环境,在多轮对话中评估在多轮对话中评估LLMLLM作为执行代理作为执行代理,调用工具调用工具(函数函数)完成目标完成
135、目标任务的能力任务的能力。AgentCLUEAgentCLUE基准测评方案具有以下要点基准测评方案具有以下要点:1 1.AgentCLUE采用多轮对话的形式、具有可可执行执行的测评环境、并且允许模型在与执行环境的交互中实现自我反思改进实现自我反思改进。2 2.AgentCLUE中包含了四个任务类型四个任务类型(常规常规多轮对话多轮对话、函数缺失函数缺失、参数缺失和长上下参数缺失和长上下文干扰文干扰),可调用的功能函数覆盖多个现实场景,如文件系统、金融交易、智能车控、旅游等场景。3 3.A g e n t C L U E 在 获 取 模 型 回 复 时,支 持Function CallingFu
136、nction Calling和PromptingPrompting两种调用模式。4 4.AgentCLUE基准中,针对每个测评题目会给出准确的函数调用作为ground truth,评价 时,对 比 模 型 回 复 的 函 数 调 用 结 果 和ground truth中的函数调用结果来评判模型回复是否正确。5 5.最终分数展示,将会包含一个总分和四个任务类别的得分;计划按照两种调用模式分别报告。申请测评:申请测评:邮件标题:AgentCLUE测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式53第6部分 推理推
137、理基准基准1.SuperCLUE-CoT:链式推理测评基准2.SuperCLUE-Science:科学推理测评基准3.SuperCLUE-Math6o:中文数学竞赛基准4.SuperCLUE-Math6:中文数学多步推理测评基准5.SuperCLUE-Code3:中文原生等级化代码能力测评基准54基准说明测评结果SuperCLUE-CoT数据集现已开放申请,请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。邮箱邮箱:contactsuperclue.ai:contactsuperclue.ai,标题是:,标题是:SuperCL
138、UE-SuperCLUE-CoTCoT测试集申请测试集申请 SuperCLUE-CoT:链式推理测评基准55SuperCLUE-CoTSuperCLUE-CoT是中文大模型链式推理能力测评基是中文大模型链式推理能力测评基准准,旨在深入评估模型的思维链推理能力。该测评不仅关注模型的解题过程和最终答案,还重点考察其构建思维链和反思能力。测评内容涵盖了物理、物理、化学、生物等科学领域的问题,以及编解码等挑战,化学、生物等科学领域的问题,以及编解码等挑战,全面检验模型在复杂推理任务中的表现。1.o11.o1在推理能力上大幅领先在推理能力上大幅领先在本次测评中,o1取得76.12分的优异成绩,推理等级定
139、为7级,领先于国内外所有大模型。在高难度的密码解码题和科学类的物理、化学、生物等任务中表现出色,展现了卓越的思维能力和推理质量。2.2.国内大模型的推理能国内大模型的推理能力展现出追赶力展现出追赶趋势趋势通过测评结果可以发现,QwQ-32B-Preview得63.50分,排行国内第一,推理等级6级,同样表现突出的还有GLM-4-Plus、yi-lightning等。同时新增更多4级推理模型如InternThinker、DeepSeek-R1-Lite-Preview。国内外大模型在中文推理能力上的差距进一步缩小。3.3.闭源模型大多数优于开源模型闭源模型大多数优于开源模型,但不及头部开源但不及
140、头部开源大模型的推大模型的推理理能力能力对比国内外闭源模型和开源模型的推理分数,我们发现闭源大模型有非常显著的优势,开源大模型除QwQ-32B-Preview、Qwen2.5-72B、InternThinker、DeepSeek V2.5之外,均低于40分,绝大部分处于1-2级推理能力的水平。基准说明测评维度及示例SuperCLUE-Science:科学推理测评基准申请测评:申请测评:邮件标题:SuperCLUE-Science测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式56以 OpenAI 为例,其在1
141、2月初正式发布的新模型OpenAI o1展现了强大的科学推理能力科学推理能力,o1在测试研究生级别的物理、化学和生物学专业知识的基准GPQA-Diamond上表现惊人,展现了比肩人类博士级别的能力。为了更有效地评估大模型在这方面的表现,我们推出了科学推理科学推理中文基准测评中文基准测评 (SuperCLUE-ScienceSuperCLUE-Science)。这一基准主要专注于评估中文大模型在研究生级别的科学题中的表现,旨在为未来的模型开发提供更有针对性的参考。基准说明测评结果SuperCLUE-Math6o数据集现已开放申请,请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方
142、式(手机或微信),发送到邮箱,并承诺不向第三方提供。邮箱邮箱:contactsuperclue.ai:contactsuperclue.ai,标题是:,标题是:SuperCLUE-Math6SuperCLUE-Math6o o测试集申请测试集申请 SuperCLUE-Math6o:中文数学竞赛基准57中文大模型小学奥数(中文大模型小学奥数(SuperCLUE-Math6oSuperCLUE-Math6o)测评基准发布)测评基准发布,旨在深入评估模型的小学奥数解题能力。关注模型回答的结果正确性外,还重点考察其逻辑清晰性以及思维创造性等。涵盖了小学奥数中常见的应用题、行程题、数论、计数、几涵盖了小
143、学奥数中常见的应用题、行程题、数论、计数、几何、计算以及杂项等问题。何、计算以及杂项等问题。1.o1-preview在小学奥数任务的表现上大幅领先在小学奥数任务的表现上大幅领先在本次测评中,o1-preview以优异成绩获得73.50分,领先所有参评模型。在应用题、行程、数论、计数、几何、计算以及杂项等小学奥数题目中表现出色,展现了出色的推理解题能力,在多个维度上展现出卓越的综合性能。2.国内大模型在小学奥数任务中综合表现相近,不同模型各国内大模型在小学奥数任务中综合表现相近,不同模型各有所长有所长从测评结果来看,Deepseek R1-Lite-Preview、QwQ-32B-Preview
144、得分均超过60分,k0-math、InternThinker和Doubao-pro-32k-230828等国内模型综合表现相近,分数相差不大。在此次的测评中,Deepseek R1-Lite-Preview更擅长处理数论类题目,QwQ-32B-Previe更擅长解决几何类题目,k0-math更擅长计数类题目。3.国内外大模型的小学奥数解题综合能力进一步缩小差距国内外大模型的小学奥数解题综合能力进一步缩小差距。总体而言,相较于模型o1-preview,此次所测评国内大模型的表现尚存在一定的差距。但此次排名第一的国内模型Deepseek R1-Lite-Preview与海外模型o1-preview
145、相差8.84分,领先chatgpt-4o-latest(10.38分)!国内超过60分的大模型还有QwQ-32B-Preview,排名领先的还有k0-math,国内外差距进一步缩小。基准说明测评结果基于测评结果,我们发现:1.1.顶级模型在数学推理上性能卓越顶级模型在数学推理上性能卓越通 过 测 评 结 果 发 现,顶 级 模 型(如顶 级 模 型(如 G P TG P T-4 o-4 o、AndesGPTAndesGPT)在推理任务中展现了卓越的性能,)在推理任务中展现了卓越的性能,特别是在处理高难度的多步推理任务时。它们在推理能力和准确性方面均达到了较高的标准,证明了当前大模型的先进水平。
146、2.2.大模型在数学推理上大模型在数学推理上性能明显分层性能明显分层通过对不同模型的综合评估,我们可以看到性能性能上的明显分层上的明显分层。高等级模型在复杂任务上的表现远远超过低等级模型,这反映了在大模型领域内技术和能力的多样性和分层。SuperCLUE-Math6SuperCLUE-Math6是一个是一个GSM8KGSM8K的中文升级版,专门设计来的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力评估和提升中文大模型在数学推理方面的核心能力。示例:示例:SuperCLUE-Math6数据集现已开放申请,请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手
147、机或微信),发送到邮箱,并承诺不向第三方提供。邮箱邮箱:contactsuperclue.ai:contactsuperclue.ai,标题是:,标题是:SuperCLUE-Math6SuperCLUE-Math6测试集申请测试集申请 SuperCLUE-Math6:中文数学多步推理测评基准来源:SuperCLUE58基准说明测评结果目前,中文编程环境缺乏一个专门的评测基准,这限制了中文大模型在代码生成方面能力的客观评估和优化。这一语言和文化差异导致中文大模型在编程任务上的潜力未能得到充分挖掘和利用。为了缓解这一问题,我们推出了SuperCLUE-Code3SuperCLUE-Code3测评集
148、和测评集和基准。基准。这是一个HumanEval的中文升级版,通过功能性单元测试,专门设计来评估和提升中文大模型在代码生成方面的核心能力。SuperCLUE-Code3(简称SC-Code3)不仅延续了HumanEval高质量,更在多样性和应用广度上进行了适当扩充。我们选取了国内外有代表性的18个闭源/开源的模型进行测评。国际大模型o1-preview-2024-09-12,Claude 3.5 Sonnet(new)表现优异,尤其是在高级难度得分上达到69.23,表明其对复杂问题的处理能力强。所有模型在初级难度得分上的表现普遍不错,例如o1-preview-2024-09-12在初级难度得分
149、为96.30,这表明大部分模型能够较好地处理基础编程任务。高级难度的得分在各模型间表现出较大差异,国际大模型如o1-preview-2024-09-12的得分为69.23,而国内部分小模型未超过30分,说明在处理更复杂的编码问题时,大模型的优势更加明显。SuperCLUE-Code3:中文原生等级化代码能力测评基准59现征集代码大模型测评,有意愿参与代码测评的厂商可发送邮件至contactsuperclue.ai,标题:SuperCLUE-Code3测评集第7部分 多模态多模态测评基准测评基准1.SuperCLUE-Multi多模态大模型测评框架2.SuperCLUE-V:多模态理解测评基准3
150、.SuperCLUE-Live:实时音视频测评基准4.SuperCLUE-T2V:文生视频测评基准5.SuperCLUE-Image:中文文生图测评基准 6.SuperCLUE-TTS:中文语音合成测评基准60SuperCLUE-Multi多模态大模型测评框架61SuperCLUE-Multi多模态大模型测评框架,是中文领域覆盖最广、体系最完善的多模态基准框架。包括视频、图像、视觉、语音等各个模型的测评任务。视频视频语音语音文生视频文生视频SuperCLUE-T2V视频画质图像图像视觉视觉实时音视频实时音视频SuperCLUE-Live遵循能力更多模态更多模态文生图文生图SuperCLUE-I
151、mage图像质量图文一致性图生视频图生视频SuperCLUE-I2V视频画质遵循能力视觉理解视觉理解SuperCLUE-V粗粒度视觉认知 实时语音实时语音SuperCLUE-Voice语音能力3D模型模型世界世界模型模型音乐模型音乐模型触触/嗅嗅/味味觉模态觉模态.日常生活影视应用中国文化物理真实模拟应用场景复杂度适应性内容创造文字创作中华文化图生图图生图SuperCLUE-I2I图像质量指令遵循情景契合度图片融合度应用场景中华文化数理逻辑分析通用场景图像OCR识别与理解细粒度视觉认知多模态多轮问答常识问答中文元素理解和推理 语音合成语音合成SuperCLUE-TTS 声音复刻声音复刻Supe
152、rCLUE-Cloning语音基础声音还原度通用能力应用能力响应延时自然度情感表现场景应用.已发布即将发布SuperCLUE-Multi多模态大模型多模态大模型测评基准框架测评基准框架基础认知视觉推理记忆能力语音交互应用场景基准说明测评维度及示例SuperCLUE-Live:实时音视频测评基准62伴随多模态大模型发展成熟,OpenAI ChatGPT 视频版高级语音、Google Gemini 2.0 实时视频通话相继推出。为评估这类新AI产品表现,我们基于中文基准测评经验推 出 全 新 测 评 体 系 实 时 音 视 频 中 文 测 评 基 准实 时 音 视 频 中 文 测 评 基 准Sup
153、erCLUE-LiveSuperCLUE-Live。该评测基准从基础能力和应用场景两个维度展开全面评估:在基础能力方面,深入考察实时音视频产品的基础基础认知、视觉推理、记忆和语音交互这四大核心能力认知、视觉推理、记忆和语音交互这四大核心能力;在应用场景能力方面,加入了生活服务、办公与教育生活服务、办公与教育等十大较常见的应用场景等十大较常见的应用场景进行系统化评估。申请测评:申请测评:邮件标题:SuperCLUE-Live测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式SuperCLUE-V:多模态理解测评基
154、准申请测评:申请测评:邮件标题:SuperCLUE-V测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式SuperCLUE-V是中文多模态理解测评基准。它从基础和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了从基础和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8 8个一级维度个一级维度3030个二级维度。个二级维度。SuperCLUE-V榜单SuperCLUE-V测评维度及示例提示词:提示词:请问图片中的产品保质期是几天请问图片中的产品保质期是几天?示例:细粒度视觉认知
155、示例:细粒度视觉认知-文本理解文本理解63【提示词1】:海边有两个小孩在堆沙堡,还有一个成年男子树下乘凉。【英文提示词】:At the beach,two children are building a sandcastle,while an adult man relaxes in the shade under a tree.SuperCLUE-T2V:文生视频测评基准申请测评:申请测评:邮件标题:SuperCLUE-T2V测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式SuperCLUE-T2V是中文文
156、生视频模型综合性测评基准,该基准包括基础与技术以及应用场景两大方向,涵盖7个一级维度与27个二级维度。SuperCLUE-T2V榜单SuperCLUE-T2V测评维度及示例【提示词2】:夜晚的海滩上,一位渔夫穿着破旧的工作服,在月光下专注地修补渔网。64SuperCLUE-Image:中文文生图测评基准申请测评:申请测评:邮件标题:SuperCLUE-Image测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式SuperCLUE-Image是文生图模型综合性测评基准,包括6个一级维度和34个二级维度,以开放式问
157、题形式对文生图大模型进行评估。SuperCLUE-Image榜单SuperCLUE-Image测评维度及示例【问题】【问题】:光线从窗户斜入的室内照,突出物体的边缘和层次。【问题】【问题】:一个浅黄色的陶罐上,用行书字体写着“修身养性”。65SuperCLUE-TTS:中文语音合成测评基准申请测评:申请测评:邮件标题:SuperCLUE-TTS测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式SuperCLUE-TTS是专为中文语音合成任务设计的语音合成模型综合性评测基准,旨在为中文语音合成领域提供全面且多维度
158、的模型能力评估参考。SuperCLUE-TTS榜单SuperCLUE-TTS测评维度及示例【提示词提示词PromptPrompt】:哇!昨晚的烟花表演真是美轮美奂,每一束火花在夜空中绽放,仿佛点亮了整个城市的夜晚。【提示词提示词PromptPrompt】:我接下来要播报一条公共广播:各位旅客,请注意,火车站一楼大厅的服务台已迁移至二楼,请前往新的位置办理相关服务。感谢您的配合,祝您旅途愉快!66第8部分 AIAI产品产品能力测评基准能力测评基准1.SuperCLUE-Coder:AI代码编程助手测评基准 2.SuperCLUE-AISearch:AI原生搜索产品测评基准 3.SuperCLUE
159、-Voice:AI实时语音产品测评基准67基准说明测评结果为代码助手工具设计的测评基准为代码助手工具设计的测评基准SuperCLUE-CoderSuperCLUE-Coder,包括构成、方法和应用场景,旨在提供一套科学严谨的评价体系,助力代码助手工具的研发和在各专业领域的应用推广。SuperCLUE-Coder:AI代码编程助手测评基准681 1.CursorCursor处于领先地位处于领先地位Cursor在本次代码助手测评中取得89.87分,处于领先地位。并在代码生成与改写、代码优化与修复、跨函数与跨文件三个维度上有绝对优势。在代码理解与分析能力上还有提升空间。2 2.国内代码助手表现不俗国
160、内代码助手表现不俗从测评结果看,文心快码、通义灵码两产品分别达到87.55、87.36的综合得分,在国内代码助手产品中大幅领先其他产品,仅稍微落后于Cursor,并且在代码理解与分析领域稍占上风。3 3.国内外代码助手能力区分性较大国内外代码助手能力区分性较大在本次代码助手测评中第一档的产品,如Cursor、文心快码Baidu Comate、通义灵码表现突出,与第二档产品有较大分差。在整体能力和各项代码任务上均有较大区分性。4 4.代码助手交互体验方面略有差异代码助手交互体验方面略有差异在测评中发现,不同的代码助手在交互体验上有不同侧重。在结合已有代码的交互方式、推理速度等方面表现不同,这也是
161、影响AI代码助手使用的重要影响因素。基于测评结果,我们发现:基于测评结果,我们发现:申请测评:申请测评:邮件标题:SuperCLUE-Coder测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式基准说明测评结果随着人工智能技术的迅速发展,AI搜索正在逐步改变人们获取信息的方式。虽然传统搜索引擎可以满足大部分需求,但在处理复杂查询、理解用户意图和提供个性化服务方面仍存在局限。AI搜索通过运用大数据分析、自然语言处理和机器学习等技术,更加精准地理解用户查询,并提供更丰富、个性化的搜索结果。为了确保AI搜索技术的进步
162、真正满足用户需求并推动行业创新,我们推出了我们推出了 SuperCLUE-AISearch SuperCLUE-AISearch 测评方案,用于评估大模型测评方案,用于评估大模型在在AIAI搜索中的表现,旨在专注于搜索中的表现,旨在专注于AIAI原生搜索原生搜索产品能力的评估。产品能力的评估。申请测评:申请测评:邮件标题:SuperCLUE-AISearch测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式SuperCLUE-AISearch:AI原生搜索产品测评基准691.chatgpt-4o-latest
163、1.chatgpt-4o-latest 在在AIAI搜索榜单中领先,搜索榜单中领先,Kimi Kimi 探索版紧随其后。探索版紧随其后。在本次测评中,chatgpt-4o-latest 以优异的表现获得了73.41分,领先其他参评模型。同时,国内大模型 Kimi 探索版的表现也可圈可点,在场景应用中的购物类题目和文化类题目中表现出色。2.2.国内大模型的整体表现颇为亮眼,超越了一国内大模型的整体表现颇为亮眼,超越了一些国际同行。些国际同行。从测评结果来看,秘塔AI搜索(研究模式)、智谱清言AI搜索与海螺AI等国内大模型在综合表现上较为亮眼,与海外大模型 Gemini-1.5-Pro-Searc
164、h 不相上下。3.3.在不同的场景应用中,模型展现出了不同程在不同的场景应用中,模型展现出了不同程度的表现。度的表现。国内大模型在科技、文化、商业和娱乐等场景下表现得相对出色,在把握住信息时效性的同时,展现出卓越的信息检索与整合的能力。但在股票、体育等场景应用中,国内大模型还有提升的空间。基于测评结果,我们发现:基于测评结果,我们发现:第9部分 行业大模型行业大模型测评基准测评基准1.SuperCLUE-Auto:汽车行业测评基准2.SuperCLUE-ICabin:汽车智能座舱测评基准3.SuperCLUE-Fin:金融行业测评基准4.SuperCLUE-Industry:工业行业测评基准
165、70基准说明测评结果我们选取了国内外有代表性的13个闭源/开源的模型进行测评。通过测评结果发现,GPT4-Turbo 依然领先幅度较大。但多个中文大模型在汽车行业上具有良好表现(75分或以上),有4个中文大模型在中文的汽车场景的表现超过了GPT-3.5,表明中文大模型在汽车场景上已经具备了的良好的潜力。部分大模型在技术和应用不同维度表现稍显不部分大模型在技术和应用不同维度表现稍显不一致一致。车辆使用指南这一维度上,多个模型达到了80分以上的优异表现,说明在一些对用户有用的任务上(如操作指南、车辆故障诊断、维修保养)已经具备较高的交互成熟度。在智能座舱与交互这一维度上,仅有一个中文模型达到了良好
166、表现,说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。SuperCLUE-AutoSuperCLUE-Auto首个汽车行业大模型测评基准首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。主要包括4大核心基础能力的十余个任务。评估流程:1)设定每个维度下的评估标准;2)针对每一个维度下的问题,基于该维度下的多个评价标准,结合打分规则并使用超级模型作为裁判逐个打分,并获得该题目的得
167、分(即每个维度下的平均分);3)获得每一个维度下所有题目的分数,并计算特定模型(如GPT3.5)在该维度的得分。详情可访问:SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布www.CLUE GLM-4-plusGLM-4-plus基准说明测评结果SuperCLUE-ICabin是一个专门针对汽车智能座舱的大模型测评基准,旨在为智能座舱的研发和生产提供一套科学、严谨的评价体系。申请测评:申请测评:邮件标题:SuperCLUE-ICabin测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式Super
168、CLUE-ICabin:汽车智能座舱测评基准721.1.GPT-4oGPT-4o领跑领跑G P T-4 o 以 8 1.7 6 分 的 成 绩 成 为 唯 一 在SuperCLUE智能座舱基准中得分超过80分的模型。它在基础能力和应用能力上的表现均领先于其他模型,展现了其在技术和应用方面的显著优势。2.2.国内大模型表现优异国内大模型表现优异国内大模型GLM-4-plus在本次测评中表现优异,取得了80.08分,与GPT-4o的差距不大,特别是在应用能力上两者仅相差0.92分。其余国内大模型的得分集中在74分以上,且彼此之间的差距很小,体现了国内大模型在座舱领域的强大竞争力。3 3.国内大模型
169、普遍基础能力弱于应用能力国内大模型普遍基础能力弱于应用能力参评的国内大模型普遍存在基础能力弱于应用能力的现象,其中最高分差者可达8.98分。这一现象表明,国产大模型需要着重关注座舱基础领域,并在未来进行进一步的优化提升。详情可访问:SuperCLUE-ICabin:汽车智能座舱大模型测评基准 www.CLUE Turbo,总体表现良好。2.2.国内大模型在金融能力上的三个梯队国内大模型在金融能力上的三个梯队在首批金融测评中,国内大模型大致可以分为三个梯队:第一梯队包括Baichuan3、GLM-4与MoonShot-v1-128k,其等级为A,低于GPT-4 Turbo,但在国内表现最为突出;
170、第二梯队包括讯飞星火V3.5与文心一言4.0,其等级为B,性能优于GPT-4;第三梯队模型则以部分金融专项大模型为主,等级集中在C及以下。SuperCLUE-FinSuperCLUE-Fin(SC-FinSC-Fin)中文原生金融大模型测评基准)中文原生金融大模型测评基准。依据不同的任务类型,全方位地对金融大模型进行测评。详情可访问:S u p e r C L U E-F i n:金 融 行 业 测 评 基 准www.CLUE u p e r C L U E-I n d u s t r y:工 业 行 业 测 评 基 准 www.CLUE 其他文本其他文本专项专项测评基准测评基准1.Super
171、CLUE-RAG:中文检索增强生成测评基准 2.SuperCLUE-Agent:中文智能体测评基准 3.SuperCLUE-Safety:中文大模型多轮对抗安全基准4.SuperCLUE-Long:中文长文本测评基准 5.SuperCLUE-200K:大模型中文超长文本测评基准 6.SuperCLUE-Role:中文角色扮演测评基准7.未来两个月基准发布计划 75基准说明测评结果1.1.国内大模型在中文国内大模型在中文RAGRAG能力上领先国能力上领先国外大模型外大模型从中文RAG检索增强整体能力上看,大多数模型得分超过GPT-4o-2024-05-14,360智脑和GLM-4-0520均在7
172、0分以上,排行第一的360智脑领先GPT-4o-2024-05-14(8.77分),国内大模型整体实力强劲,在中文RAG能力上具有一定的优势和竞争力。2.2.模型整体分差小模型整体分差小,且各自擅长的维度,且各自擅长的维度不同不同大部分模型处于65到70分的区间,分差在1到2分之间,分差较小,但模型在四大维度上的区分度明显。360智脑在拒答能力上得分超过80分,表现突出;GLM-4-0520在检错和纠错能力上表现更佳;文心一言4-turbo擅长信息整合能力方面;通义千问2.5在答案及时性上表现出色等。为了对国内外大语言模型的RAG技术发展水平进行评估并据此提出改进建议,我们发布了SuperCL
173、UE-RAGSuperCLUE-RAG(SC-RAGSC-RAG)中文)中文原生检索增强生成测评基准原生检索增强生成测评基准。采用了不同于以往SuperCLUE评估方法的对比式测评模型,依据不同的任务类型,全方位、多角度地对RAG技术水平进行测评。不同于以往的测评体系,SuperCLUE-RAG还采用了对比式问答模式。除无文档问答类任务以外,针对同一问题进行先后两次提问,第一次不提供任何外部文档信息,第二次人为提供预设文档,对比两次答案的差异。详情可访问:S u p e r C L U E-R A G 中 文 检 索 增 强 生 成 测 评 基 准:www.CLUE 现征集RAG测评,有意愿参
174、与测评的厂商可发送邮件至contactsuperclue.ai,标题:SuperCLUE-RAGSuperCLUE-RAG:中文检索增强生成测评基准76基准说明测评结果1.1.国内外整体国内外整体水平差距正在缩小水平差距正在缩小GPT-4o-2024-05-13在中文Agent智能体测评基准上取得78.37分,排行第一。ERNIE-4-8k-latest和TeleChat2-Large紧随其后,分别取得75.27分和74.48分。同 样 表 现 突 出 的 还 有 Q w e n-2-7 2 B-Instruct、TeleChat2、GLM-4-9B-Chat,均领先GPT-3.5-0125。
175、2.GPT-4o-2024-05-132.GPT-4o-2024-05-13在多个在多个子维度上仍子维度上仍保持领先保持领先GPT-4o-2024-05-13在任务规划、工具使用和长短期记忆的子维度上仍保持领先地位,10个子维度上共7个表现最佳。国内模型在某些任务上表现也可圈可点,如TeleChat2-Large、Q w en-2-7 2 B-Instruct在自我反思能力上得分超过GPT-4o-2024-05-13。期待国内大模型实力进一步增强。AI Agent智能体正在最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。AI Agent是一个能够自主理解、规划决策和执行复杂任务的智能
176、体。现有关于Agent能力的测评,主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。SuperCLUE-AgentSuperCLUE-Agent是一个聚焦于是一个聚焦于AgentAgent能力的多维度基准测试能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。详情可访问:【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布 www.CLUE www.CLUE 1.GPT-4oGPT-4o处于领先地位,但仍有较大提升空间处于领先地位,但仍有较大
177、提升空间GPT-4o-2024-05-13取得68.39分,领跑长文本基准。其中解析任务有70+分的表现。但摘要任务和创作任务上低于70分,仍有较大的提升空间。2.2.国内大模型在长文本能力上正在不断接近全球领先水国内大模型在长文本能力上正在不断接近全球领先水平平国内大模型Moonshot(kimi)取得66.79分,暂列国内第一,豆包、Baichuan4、360gpt2-pro-360k、通义千问2.5、文心一言4 turbo仅随其后,均有超过64分的表现。3.3.不同大模型在不同维度上各有优势不同大模型在不同维度上各有优势豆 包 在 长 文 本 的 数 理 分 析 任 务 中 表 现 最
178、好,Moonshot(kimi)擅长全文摘要和线索摘要,360gpt2-pro-360k则在内容创作助理中表现最好。4.4.部分大模型会随长度提升而出现性能损失部分大模型会随长度提升而出现性能损失GPT-4o-2024-05-13和Moonshot(kimi)在不同长度文本上表现稳定,而部分模型则存在较大波动,性能会随着长度的提升而减弱。这反映了不同模型在处理各种长度文本时的稳定性存在显著差异。SuperCLUE-LongSuperCLUE-Long基准包括基准包括3 3个一级维度个一级维度1212个二级维度个二级维度,以开放式问题形式对长文本大模型进行评估。为了更细致、更全面地展现长文本大模
179、型的能力水平,结合国内外长文本大模型发展的实际情况,我们在每一个任务类型中均设置了不同文本长度的题目,长度区间设置为长度区间设置为4K4K、8K8K、16K16K、64K64K、128K128K。SuperCLUE-Long数据集现已开放申请,请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。邮箱邮箱:contactsuperclue.ai:contactsuperclue.ai,标题是:,标题是:SuperCLUE-SuperCLUE-LongLong测试集申请测试集申请 SuperCLUE-Long:中文长文本测评基准79
180、基准说明测评维度SuperCLUE-200KSuperCLUE-200K(中文大海捞针)(中文大海捞针)是一个聚焦于超长文本能力的基准测评,主要是在中文超长文本语料(大海捞针的“海”)中,在不同位置中放入与文本语料无关的一句文本(大海捞针的“针”),用以考察大模型在超长文本中的处理能力。注:现征集超长文本大模型测评,有意愿参与SuperCLUE-200K测评的厂商可发送邮件至contactsuperclue.ai,标题:SuperCLUE-200K测评,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。SuperCLUE-200K构建了4类(商业、教育、科技、娱乐
181、)5级(8K、32K、64K、128K、256K)共20个“海”文本和10个插入文本“针”,每根针在不同的“海”里10个不同分布的位置中插入,即每个大模型进行451010共2000次测评实验。在中文超长文本测评中国内外差距并不明显:GPT4-Turbo-0125作为国际头部大模型,在可支持的Token长度内,并未优于国产模型。相比英文大海捞针NAH,SC-200K区分性更大:GPT4-Turbo、Moonshot、XVERSE-13B-L、Yi-34B-Long在SC-200K和NAH的测评结果在某些等级上并不十分一致,NAH上的测评得分普遍偏高,SC-200K测评更能考验模型真实能力,少有满
182、分的情况出现。目前国内模型长文本能力尚有提升空间:本次测评的3个国内模型普遍支持128K窗口长度,只有一个模型支持256K,还有较大提升空间。长文本无损能力:在Prompt长度逐渐提升时,部分模型的表现会有所衰减。SuperCLUE-200K:大模型中文超长文本测评基准80基准说明测评结果在中文环境下的角色扮演任务中,国内的模型有着不错的表现,比如qwen1.5-72b-chat、文心一言4.0均有超过GPT-4的表现。模型的知识掌握水平是对于角色演绎能力和场景应用能力的重要支撑,较好的角色演绎力和场景应用能力通常需要模型具有不错的知识掌握水平。模型角色扮演能力有待加强:模型更擅长处理常规的角
183、色扮演问题,对于非常规的问题,对齐角色能力大大降低,也是模型可考虑改进的方向。多轮效果衰减:随着对话轮数的增加,模型的表现会出现普遍的降低。大模型的角色扮演能力是AI领域的一大关注热点,并且具有不错的应用前景,可以帮助开发情感陪伴工具和游戏NPC等。当前的角色扮演测评基准包括CharacterEval、RoleBench等,这些基准的测评标准和方式往往不统一,并且在评价体系上不够全面,缺少对于模型在常见应用场景下的应用潜力的评估。为了缓解这一问题,我们推出了SuperCLUE-RoleSuperCLUE-Role测评测评集和基集和基准。这是一个包括角色扮演基础能力和场景应用能力测评的中准。这是
184、一个包括角色扮演基础能力和场景应用能力测评的中文基准,专门设计来评估和提升中文大模型在角色扮演方面的文基准,专门设计来评估和提升中文大模型在角色扮演方面的核心能力。核心能力。详情可访问:S u p e r C L U E-R o l e:中 文 角 色 扮 演 测 评 基 准 www.CLUE 5年年2 2月月2 27 7日发布日发布,欢迎反馈意见、参与测评。序号序号智能体智能体专项基准专项基准计划计划序号序号行业基准行业基准计划计划1AgentCLUE中文多轮可执行智能体测评基准标准/方案发布1SuperCLUE-Auto汽车行业测评基准已发布,持续征集模型-.更多智能体专项.待发布2Sup
185、erCLUE-Industry工业行业测评基准已发布,持续征集模型序号序号推理专项基准推理专项基准计划计划3SuperCLUE-ICabin智能座舱测评基准已发布,持续征集模型1SuperCLUE-CoT链式推理测评基准已发布,持续征集模型4SuperCLUE-Fin金融测评基准已发布,持续征集模型2SuperCLUE-Math6o奥林匹克数学竞赛测评基准已发布,持续征集模型5SuperCLUE-Mobile手机行业测评基准已发布,持续征集模型3SuperCLUE-Code3中文代码能力测评基准已发布,持续征集模型5医疗测评基准待发布4SuperCLUE-Math6中文数据多步推理测评基准已发
186、布,持续征集模型-.更多行业基准.待发布5SuperCLUE-Science科学推理测评基准标准/方案发布序号序号AIAI产品基准产品基准计划计划-.更多专项.待发布1SuperCLUE-Coder代码助手测评已发布,持续征集模型序号序号多模态基准多模态基准计划计划2SuperCLUE-AISearchAI搜索基准已发布,持续征集模型1AIGVBench-T2V中文文生视频测评基准已发布,持续征集模型-.更多AI产品.待发布2SuperCLUE-Image中文文生图测评基准已发布,持续征集模型序号序号其他文本专项其他文本专项基准基准计划计划3SuperCLUE-V中文多模态理解测评基准已发布,
187、持续征集模型1SuperCLUE-RAG中文检索增强测评基准已发布,持续征集模型4SuperCLUE-Voice中文实时语音交互测评基准已发布,持续征集模型2SuperCLUE-Long长文本测评基准已发布,持续征集模型5SuperCLUE-TTS中文语音合成测评基准已发布,持续征集模型3SuperCLUE-200K中文超长文本测评基准已发布,持续征集模型6SuperCLUE-cloning声音克隆测评基准已发布,持续征集模型4SuperCLUE-Safety中文多轮安全基准已发布,持续征集模型7SuperCLUE-Live实时音视频测评基准标准/方案发布5SuperCLUE-Role中文角色
188、扮演测评基准已发布,持续征集模型8SuperCLUE视觉推理测评基准即将发布.更多模态.待发布-.更多产品.待发布未来两个月基准发布计划82第11部分 优秀模型案例优秀模型案例介绍介绍1.DeepSeek-V3 2.SenseChat5.5-latest 3.360zhinao2-o1 4.Qwen2.5-3B-Instruct 83资料来源:SuperCLUE,公开资料整理模型介绍模型介绍DeepSeek-V3是深度求索于2024年12月26日推出的最新MoE开源大模型。深度求索团队成立于2023年7月17日,于2024年1月5日推出首个大模型DeepSeek LLM,其后陆续推出并开源De
189、epSeek-Coder、DeepSeek-V2、DeepSeek-V2.5等大模型。DeepSeek-V3DeepSeek-V3核心能力核心能力分布分布主要关键技术主要关键技术适配应用场景适配应用场景技术名称技术名称简介简介技术特点MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。采用 FP8 训练,并开源了原生 FP8 权重。能力优势擅长中文语言:在SuperCLUE语言理解任务排名国内第一;擅长复杂任务:在SuperCLUE深度推理、指令遵循、Agent、计算、逻辑推理、代码任务上排名国内前三。智能智能体体复杂复杂任务任务代码代码编程编程中文中文创作
190、创作科学科学研究研究优秀模型案例:DeepSeek-V3科学科学研究研究84资料来源:SuperCLUE,公开资料整理模型介绍模型介绍SenseChat5.5-latest是商汤科技推出的大模型日日新5.5在2024年12月份的最新版本。商汤科技于2023年4月推出首个大模型日日新。其后陆续推出多版本,2024年4月23日发布日日新5.0大模型,采用MOE混合专家架构。SenseChat5.5-latestSenseChat5.5-latest核心核心能力分布能力分布主要关键技术主要关键技术适配应用场景适配应用场景技术名称技术名称简介简介技术特点采用混合专家架构(MoE),6000亿参数基模型
191、。大量使用合成高阶思维链数据,提升推理思维能力。能力优势擅长数学和安全:在SuperCLUE计算、传统安全任务排名国内第一;擅长复杂任务:在SuperCLUE深度推理、指令遵循、逻辑推理任务排名国内前五数理数理安防安防复杂复杂任务任务工业工业科学科学研究研究优秀模型案例:SenseChat5.5-latest金融金融85资料来源:SuperCLUE,公开资料整理模型介绍模型介绍360zhinao2-o1是360推出的最新推理模型。360于2023年3月29日发布首个大模型360智脑1.0。其后陆续推出多版本,2024年10月发布360gpt2-pro,在数学以及各种复杂逻辑推理任务上有了显著提
192、升。360zhinao2-o1360zhinao2-o1核心核心能力分布能力分布主要关键技术主要关键技术适配应用场景适配应用场景技术名称技术名称简介简介技术特点360zhinao2-o1使用树搜索构建思维链,并引入了反思机制,使用强化学习训练,模型具备自我反思与纠错的能力。能力优势擅长复杂推理任务:在SuperCLUE逻辑推理任务排名国内第一;在SuperCLUE深度推理、Agent、计算任务排名国内前三;复杂复杂任务任务智能智能体体数理数理计算计算工业工业科学科学研究研究优秀模型案例:360zhinao2-o1金融金融86资料来源:SuperCLUE,公开资料整理模型介绍模型介绍Qwen2.
193、5-3B-Instruct是阿里云推出的开源模型。阿里云于2023年8月qwen-7b-chat,后续陆续推出qwen1.5、qwen2.0、qwen2.5系列开源模型,参数量覆盖0.5B到72B,为国内大模型开源生态做出突出贡献。Qwen2.5-3B-InstructQwen2.5-3B-Instruct核心核心能力分布能力分布主要关键技术主要关键技术适配应用场景适配应用场景技术名称技术名称简介简介技术特点使用 RoPE、SwiGLU、RMSNorm、注意力 QKV 偏置及绑定词嵌入的 transformers,参数数量:30.9亿。能力优势擅长推理任务:在SuperCLUE深度推理、计算、
194、逻辑推理任务优于Gemma-2-9b-it、Llama-3.1-8B-Instruct,参数量少2-3倍。手机手机端端PCPC端端眼镜眼镜端端机器机器人人科学科学研究研究优秀模型案例:Qwen2.5-3B-Instruct其他其他终端终端87排行榜官方地址:排行榜官方地址:https:/官网:官网:www.CLUEGithub地址:地址:https:/ 18806712650 朱老师朱老师 17621237819(微信同号)(微信同号)立足业内领先的第三方大模型测评机构,致力于为业界提供专业测评服务立足业内领先的第三方大模型测评机构,致力于为业界提供专业测评服务:扫码扫码关注关注行业与专项大模
195、型测评行业与专项大模型测评聚焦测评大模型在行业落地应用效果,包括但不限于汽车、手机、金融、工业、教育、医疗等行业大模型应用能力,中文Agent能力测评、大模型安全评估、多模态能力测评、个性化角色扮演能力测评。通用大模型测评通用大模型测评提供大模型综合性评测服务,输出全方位的评测报告,包括但不限于多维度测评结果、横向对比、典型示例、模型优化建议。多模态大模型测评多模态大模型测评多维度全方位测评多模态大模型的基础能力与应用能力,包括但不限于实时多模态交互、视频生成基准测评、文生图测评、多模态理解测评等。AI应用测评应用测评提供AI大模型落地应用及工具测评,包括但不限于生产力工具、代码助手、AI搜索
196、等应用;AI PC、AI手机、XR设备及具身智能等设备端应用。大模型深度研究报告大模型深度研究报告提供国内外大模型深度研究报告,全面调研与分析国内外大模型技术进展及应用落地情况,为企事业单位提供及时、深度的第三方专业报告。业务合作:请简要描述需求至合作邮箱 contactsuperclue.ai联系我们联系我们SuperCLUE交流交流合作合作法律声明法律声明版权声明版权声明本报告为SuperCLUE团队制作,其版权归属SuperCLUE,任何机构和个人引用或转载本报告时需注明来源为SuperCLUE,且不得对本报告进行任何有悖原意的引用、删节和修改。任何未注明出处的引用、转载和其他相关商业行
197、为都将违反中华人民共和国著作权法和其他法律法规以及有关国际公约的规定。对任何有悖原意的曲解、恶意解读、删节和修改等行为所造成的一切后果,SuperCLUE不承担任何法律责任,并保留追究相关责任的权力。免责条款免责条款本报告基于中文大模型基准测评(SuperCLUE)12月底的自动化测评结果以及已公开的信息编制,力求结果的真实性和客观性。然而,所有数据和分析均基于报告出具当日的情况,对未来信息的持续适用性或变更不承担保证。本报告所载的意见、评估及预测仅为出具日的观点和判断,且在未来无需通知即可随时更改。可能根据不同假设、研究方法、即时动态信息和市场表现,发布与本报告不同的意见、观点及预测,无义务向所有接受者进行更新。本团队力求报告内容客观、公正,但本报告所载观点、结论和建议仅供参考使用,不作为投资建议。对依据或者使用本报告及本公司其他相关研究报告所造成的一切后果,本公司及作者不承担任何法律责任。SuperCLUE