深圳研究院:2024中文语境下的人工智能大语言模型评测(28页).pdf

编号:602082 PDF 28页 5.71MB 下载积分:VIP专享
下载报告请您先登录!

深圳研究院:2024中文语境下的人工智能大语言模型评测(28页).pdf

1、中文语境下的通用大语言模型评测(2024 年 1 月)1 中文语境下的中文语境下的人工智能人工智能大语言模型评测大语言模型评测 (2024 年年 1 月月)蒋镇辉,李佳欣,苗霄宇 香港大学经管学院深圳研究院人工智能研究所 1 中文语境下的人工智能大语言模型评测 蒋镇辉,李佳欣,苗霄宇(香港大学经管学院深圳研究院,深圳)1.引言 技术的快速发展使得人工智能大语言模型迅速迭代,应用范围不断扩大,为促进用户更好地理解与选择,引导技术创新与持续优化,大模型评测工作具有重要的现实意义。大模型评测为不同模型在特定任务上的表现提供了标准化的衡量,有助于深入了解模型的优势和局限。对用户而言,大模型评测可以拓展

2、他们对于不同模型性能与优劣的认识,以便于他们基于个体需求,选择最优模型。对开发者而言,大模型评测有助于识别自身模型相较于竞争者的不足,进而不断优化与改进。此外,开展大模型评测有助于推动大语言模型公平、透明与负责任的使用,建立用户信任,促进行业良性竞争。从用户视角出发,我们构建了一个新的通用大语言模型的综合评价体系(见图 1),以通用语言能力、专业学科能力、安全与责任三大能力为核心,涵盖自由问答、内容创作、内容总结、跨语言翻译、逻辑与推理等数十个子任务,并通过人类裁判与大模型裁判共同评估了大语言模型在中文语境下的表现,对过往评测工作进行了有益补充。图 1.中文语境下的通用大语言模型评测体系 通过

3、 API 调用的方式,我们对 14 个主流大语言模型进行了测试与评估,依据通用语言能力和安全与责任方面的人类评分,以及专业学科测试中的正确率进中文语境下的人工智能大语言模型评测(2024 年 1 月)2 行综合加权,获得了这些模型在中文任务处理方面的综合排名。此外,我们还引入大模型裁判(LLM-as-a-judge)作为参考。在成对比较(Pairwise comparison)中,一个微调后的 GPT3.5-Turbo 模型作为裁判,判断对于特定问题而言,模型A 与模型 B 谁的回复更优。通过这种评测方式与 Elo 评级机制,我们还获得了一份 基 于 大模型裁判判断 的通用语言能力排行榜。完整

4、排行榜请访问https:/hkubs.hku.hk/aimodelrankings/c 查阅。2.现有评测体系综述 2.1.自然语言处理数据集测评 自然语言处理任务是衡量模型性能最常见的评测方法之一。对于能够执行多种任务的大语言模型来讲,单一任务对应的评测数据集已经无法全面评估其性能,GLUE1这样的由多个数据集组合成的测试基准开始被用于大语言模型能力的综合评估。相对应的中文评测基准有 CLUE2,多语言评测基准有 XTREME3等。以 GLUE 为代表的这类基准主要对大模型在自然语言推断、文本分类、情感分析等自然语言理解(NLU)任务上的表现进行评估。然而,这种评价方式较为单一,与大模型在用

5、户端的现实应用场景差异较大,具有一定的局限性。2.2.人类试题集测评 开发者也开始试着像对待一个孩子一样对待 AI 大模型,如果想评估他的能力,那么就用试卷来考考他。常见的评测标准有 MMLU4、AGIEval5等,与之相类似的中文测试基准有 CMMLU6、GAOKAO-bench7等,通过收集现实世界的试题集、考试资料形成测试集。例如 CMMLU 向大模型提出单或多选问答任务,涵盖 67 个主题/学科,涉及自然科学、社会科学、工程、人文、以及常识等,可以全面地评估大模型在中文知识储备和语言理解上的能力。这样的评测基准能够聚焦于细分知识领域,既要求模型能够理解语言,又考量了真实知识的习得,同时

6、要求模型在高级知识任务上具有一定的总结推理能力。GPT-4 等大模型也已经开始引入人类试题作为基准,OpenAI 官网称,在模拟美国律师从业资格考试中,GPT-3.5 的成绩在全体考生中只能排到末尾 10%,而 1 The General Language Understanding Evaluation(GLUE)benchmark,https:/ 2 中文语言理解测评基准(CLUE),https:/ 3 The Cross-lingual Transfer Evaluation of Multilingual Encoders(XTREME)benchmark,https:/ 4 MMLU

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(深圳研究院:2024中文语境下的人工智能大语言模型评测(28页).pdf)为本站 (AG) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠