中国信通院:大模型基准测试体系研究报告(2024年)(52页).pdf

上传人: 微*** 编号:168027 2024-07-12 52页 2.35MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。

报告推荐

相关图表

本文主要介绍了大模型基准测试的发展现状、存在的问题和挑战,以及中国信息通信研究院提出的“方升”大模型基准测试体系。 关键点包括: 1. 大模型基准测试发展迅速,已报道325个相关数据集、方法和榜单,通用语言类评测数据集最多,占比超过50%。 2. 2023年大模型基准测试迎来爆发,仅一年出现的大模型基准测试数据集数量超过之前5年总和。 3. 当前大模型基准测试存在问题,如缺乏面向产业应用的评测体系,模型安全能力评估不足,评测结果与用户体验存在差异等。 4. 中国信息通信研究院提出“方升”大模型基准测试体系,从指标体系、测试方法、测试数据集和测试工具四个维度进行构建,重点面向产业应用效果进行评估。 5. “方升”体系提出自适应动态测试方法,通过测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法,保证评测结果的公正性和科学性。 6. “方升”体系已开展首轮试评测,对30多家国内外主流大模型进行全方位评测,验证了体系的有效性。
大模型基准测试体系如何构建? 如何评价大模型的安全能力? 大模型在行业应用中面临哪些挑战?
客服
商务合作
小程序
服务号