香港大学:2025大语言模型推理能力榜:中文语境下“最强大脑”测评揭晓(12页).pdf

编号:972674 PDF  DOCX 12页 2.08MB 下载积分:VIP专享
下载报告请您先登录!

香港大学:2025大语言模型推理能力榜:中文语境下“最强大脑”测评揭晓(12页).pdf

1、大语言模型推理能力榜:中文语境下“最强大脑”测评揭晓大语言模型推理能力榜:中文语境下“最强大脑”测评揭晓GPT-5 暂列第二,冠军究竟花落谁家?暂列第二,冠军究竟花落谁家?蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣11香港大学经管学院,2西安交通大学管理学院【摘要】【摘要】随着大语言模型(LLM)技术的快速迭代,推理能力作为衡量模型智能水平的核心指标,已成为学术界与产业界的研究焦点。现有关于 LLM 推理能力的评测多聚焦于特定任务(如数学推理、逻辑能力),缺乏覆盖多维推理场景的系统框架,难以全面反映模型在实际应用中的推理效能。为应对上述挑战,本研究构建了一套系统、客观、公正的人工智

2、能模型推理能力评价体系。我们在中文语境下针对纯文本推理的评测显示,GPT-o3 在基础逻辑能力测评上以高分登顶,Gemini 2.5 Flash 在情境推理能力测评中拔得头筹;在综合能力排名上,豆包 1.5 Pro(思考模式)排名首位,Open Al 近日推出的GPT-5(自动模式)紧随其后,豆包 1.5 Pro、DeepSeek-R1、以及通义千问 3(思考模式)在内的多款国产 LLM 也均排入前列,展现了国产 LLM 在中文语境中优越的推理能力。此外,对模型效率的进一步分析发现:多数推理能力优异的模型存在效率短板,而豆包 1.5 Pro 不仅推理表现突出,且模型效率较高,堪称兼顾推理能力与

3、运行效率的标杆。过去半年,大语言模型(LLM)赛道出现了新拐点:价格战逐渐退潮,“推理能力”成为了新的主战场。从 OpenAI 的 o1 率先推出推理模型,到国产DeepSeek-R1 因强大的解题能力冲上热搜,“谁能真正成为推理冠军?”成为用户最关心的问题。近日,香港大学经管学院蒋镇辉教授的人工智能评估实验室(AIEL)(https:/hkubs.hku.hk/aimodelrankings/)公布了最新研究成果。该研究首次构建了涵盖基础逻辑与情境推理能力的综合测评体系(见图 1)。实验室团队基于此精心设计了涵盖不同难度的测试集,并对中美两国 36 款主流 LLM(包括 14 款推理模型、2

4、0 款通用模型和 2 款一体化系统)进行了中文语境下的基准测试,全面揭示了不同模型在推理性能上的差异。测评结果显示:豆包 1.5 Pro(思考模式)以 93 分的综合得分位居榜首,OpenAI 近日推出的 GPT-5(自动模式)紧随其后。整体而言,国产模型在推理能力方面展现了强劲实力。图 1 推理能力测评体系测评对象与方法(1)测评对象测评对象与方法(1)测评对象研究团队对近期中美两国发布的 36 个主流大语言模型开展了全面测试与评估(见表 1)。由于受到本地部署的限制,Llama 4 未被纳入本次测评。表 1 参与测评模型列表(2)测评方法(2)测评方法测评内容构建:本研究构建的推理模型测评

5、题目分为基础逻辑能力和情境推理能力(表 2),两者共同刻画模型从基础推理能力到进阶推理能力的综合表现。表 2 大语言模型推理能力测评题目类别推理题目类别推理题目类别定义定义细分类别细分类别二级维度定义二级维度定义基础逻辑能力测评模型掌握和运用基本逻辑规则以进行有效推断的能力。演绎推理依据既定规则,从普遍前提出发得出特定结论。归纳推理基于有限观察,概括出具有或然性的般性结论。溯因推理从结果出发,推断最可能的原因或最佳解释。情境推理能力测评模型综合运用多种知识、逻辑和策略来解决复杂问题、处理不确定性及进行价值判断的能力。常识推理测评模型利用对常识性日常世界常识进行简单解释或判断的能力。学科推理测评

6、模型运特定学术或专业领域的知识来分析复杂问题、进行推导的能力。不确定性下的决策推理测评模型在信息不完整、存在风险的条件下,进行合理推断并做最优选择的能力。道德与伦理推理测评模型根据伦理规范和社会价值观对特定情境进行道德判断、分析其道德性的行为建议的能力。题目设计标准:本次测评中,90%的题目为原创或经过深度改编,另有 10%选自 2024、2025 年中高考真题及国内外知名数据集,旨在真实检验模型的“自主推理”能力。题目难度呈梯度化设置:纵向上,同一能力维度下设两档难度,易题与难题的比例稳定在 60%:40%,兼顾了测试覆盖的广度与对高阶能力的区分度;横向上,题目从单点基础逻辑逐步递进至复杂场

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(香港大学:2025大语言模型推理能力榜:中文语境下“最强大脑”测评揭晓(12页).pdf)为本站 (patton) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠