1、1.1.1 大模型发展现状.21.2 评测需求.31.3 评测问题与挑战.4.2.1 主要评测方式.52.2 典型评测维度.52.3 常见评测指标.6.4.1 整体框架.84.2 评测场景.94.3 评测要素.114.4 评测维度.16.1人工智能大模型(以下简称大模型)是实现生成式人工智能服务(AIGC)的重要技术,ChatGPT上线两个月活跃用户(MAU)突破 1 亿,激发了大模型技术的爆发式发展,全球科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、META等,加快大模型研发,并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发,百度、腾讯、华为、阿里
2、、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度,OpenAI、谷歌、百度已经在短短几个月内多次升级大模型版本,能力提升明显,大模型行业竞争激烈。与此同时,随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型,泛化能力更强、灵活性更高、适应性更广,多任务、多场景,评测维度、评测指标和数据集更复杂,面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织,如OpenAI、微软、斯坦福大学、信通院,在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告,从准确性、鲁棒性、毒害
3、性、公平性等评测维度对相关大模型进行了评测,为用户和行业充分掌握大模型能力发挥了积极作用。目前业界多家机构发布了大模型的评测榜单,但是评测维度及侧重点各有不同。从推动AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度,有必要从用户视角,构建一套客观全面、公平公正的大模型评测体系。中国移动技术能力评测中心作为中国移动的专业评测机构,也在关注和跟进大模型评测技术发展。自 2019 年起陆续开展了专业公司 31+N考核对标评测、技术中台能力准入等工作,涵盖人工智能、互联网、物联网、大数据、大视频等 20 余个领域 1000 余项产品和能力,积累了丰富的产品技术能力评测经验和数据。基于前期积累,
4、对业界各类大模型评测技术进行了充分调研和评测验证,构建了“弈衡”通用大模型“2-4-6”评测体系,并基于该体系对已发布的大模型进行了广泛的评测。随着大模型技术的不断发展,“弈衡”通用大模型评测体系也将持续迭代完善,希望通过发布“弈衡”通用大模型评测体系白皮书,与产业界相关企业和研究机构一道,加强交流合作,逐步完善测试指标、测试方法、测试数据、测试自动工具,共同建立评测产业标准化生态,为业界大模型评测提供参考依据,促进大模型技术的产业成熟和应用落地。21.1 大模型发展现状随着大模型技术的快速发展,其巨大的参数量、计算量以及模型复杂度,在解决复杂任务方面具有很大的优势,主要体现在强大的理解和生成
5、能力、高度的泛化能力、优秀的可迁移学习特性及端到端训练优势。大模型技术受到各类行业的广泛关注,通过将大模型与实际业务相结合,可为用户提供更加个性化、更符合用户需求的服务。大模型在多个领域的应用示例如下:行业领域应用通用能力搜索领域用于实现更智能、更准确的信息检索和推荐。语音识别与合成领域识别并合成语音,实现更智能、更自然的语音助手。垂直行业内容创作与审核领域用于自动撰写文章、新闻、绘画、音乐等任务。教育科技领域为教育领域提供智能化支持。金融科技领域帮助金融机构提高决策效率和质量。医疗健康领域协助医生和研究人员提高工作效率,提高医疗水平。智能制造领域助力工厂实现智能化生产、降本增效。软件开发领域
6、提高开发人员的工作效率,降低人力成本。法律领域用于文书的撰写、法律咨询等任务,降低法律服务成本。人力资源领域帮助企业优化人力资源管理。媒体与娱乐领域为创作者提供创意灵感,提高创作效率。语言学习领域辅助语言教师授课,帮助学习者提高语言能力。旅游领域提供个性化的旅行建议和服务。公共服务领域提高政府服务效率,优化公共资源配置。客服领域应用于智能客服助手等任务,提高客服效率,降低成本。市场分析领域帮助企业洞察市场动态,优化产品、提供更加安全的服务。随着大模型的发展,模型能力还将不断扩展,通过文本、图像和语音等多种形式。与更多新兴的应用场景相结合,赋能千行百业。31.2 评测需求由于大模型高度复杂的结构