清华大学:2024年SuperBench大模型综合能力评测报告(24页).pdf

编号:602223 PDF 24页 1.75MB 下载积分:VIP专享
下载报告请您先登录!

清华大学:2024年SuperBench大模型综合能力评测报告(24页).pdf

1、SuperBench大模型综合能力评测报告(2024年3月)SuperBench团队大模型能力重点迁移历程语义2023年-future随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。2023年-2024年基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。2022年-2023年随着大模型在各领域的广泛应

2、用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。2018年-2021年早期的语言模型主要关注自然语言的理解任务(e.g.分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5等。2021年-2023年随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中

3、展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。代码对齐智能体安全大模型评测原则标准Channel:premium atmospheric Sys开放性在整个评测过程中,都应保证公开透明,避免暗箱操作;评测数据集也应开放与封闭相结合,这样既有利于后续的模型优化,也可以防止模型刷题动态性 要不断丰富评测数据,避免静态考题,进行数据集的持续优化,力求更专业。如果榜单的评测数据集长时间保持不变,会有被参与评测者刷题的风险,导致榜单失真科学性 大模型的评测体系更全面,评测方法确保科学严谨,评测方式力求多元化。这不仅需要专业的数据集构建,也需

4、要科学研究的支撑权威性 评测任务具有公信力,评测结果公正严谨,社会认可度高,避免成为一家之言,同时杜绝商业利益对评测结果的干扰大模型在2023年经历了“百模大战”,实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型,在此背景下,如何评价大模型的能力变成一个非常重大的研究和实践问题。目前国内外均有测试大模型能力的榜单,但质量良莠不齐,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。大模型评测的必要性优质大模型评测的标准SuperBench评测模型列表模型所属机构调用方式说

5、明GPT-4 TurboOpenAIAPIgpt-4-0125-previewGPT-4 网页版OpenAI网页GPT-4官方网页Claude-3AnthropicAPIAnthropic Claude-3-opus-20240229 APIGLM-4智谱华章APIGLM-4开放平台APIBaichuan3 网页版百川智能网页Baichuan3官方网页KimiChat 网页版月之暗面网页KimiChat官方网页Abab6稀宇科技APIMiniMax开放平台Abab6 API文心一言4.0百度API百度千帆平台Ernie-bot-4 API通义千问2.1阿里巴巴API通义千问qwen-max-l

6、ongcontext APIqwen1.5-72b-chat阿里巴巴API通义千问开源qwen1.5-72b-chatqwen1.5-14b-chat阿里巴巴API通义千问开源qwen1.5-14b-chat讯飞星火3.5科大讯飞API讯飞SparkDesk-v3.5 API云雀大模型字节跳动API火山引擎skylark2-pro-4k v1.2 APIYi-34b-chat零一万物APIYi开源Yi-34b-chat模型本次我们选择海内外具有代表性的14个模型进行评测,对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下:*注:评测过程中我们发现部分网页版模

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(清华大学:2024年SuperBench大模型综合能力评测报告(24页).pdf)为本站 (AG) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠