1、大语言模型评价的挑战刘伟 小米演讲嘉宾刘伟小米AI实验室算法总监小米AI实验室大模型算法负责人,北京大学心理与认知科学学院硕士行业导师,清华大学机器学习课程答辩导师,微软小冰初创成员。研究方向:人机对话和大语言模型。有超过10年的人机对话从业经历,主导和深度参与了微软小冰、小爱同学等业界具有影响力的人机对话产品的研发,并有数项专利和顶会论文发表。目 录CONTENTS1.模型评价概述2.大语言模型评价的挑战模型评价概述PART 01模型评价的目标模型评价的目标是选出泛化能力强的模型完成机器学习任务泛化能力强的模型能很好地适用于未知的样本,模型的错误率低、精度高。机器学习任务中,我们希望最终能得
2、到准确预测未知标签的样本、泛化能力强的模型。1.splitDataTest DataValidation DataTrain DataModel 1Model nModel 22.trainFinal Model3.select评价结果4.test模型评价的重要性模型评价方法是指引技术发展的灯塔-用于评估模型的好坏,客观真实的量化评价-作为模型选择和调参目标-作为模型优化目标灯塔是否是一成不变的?模型评价的原则-公平性(Fairness):-客观真实的评价模型效果-公正对比不同模型-可重复(Reproducibility)-相同设置下(硬件、软件、人员、环境等)的多次评价具有一致的结果-低代价
3、(Cost-efficient)-评价成本低、效率高模型评测的主要方法-人工评价 vs 自动评价-人工评价:通过人工标注模型结果质量-自动评价:通过机器判断模型结果质量图灵测试(1950)阿兰图灵(1912-1954)模型评测的主要方法-人工评价 vs 自动评价-人工评价:通过人工标注模型结果质量-自动评价:通过机器判断模型结果质量分类抽取序列标注回复受控易于自动评价对话生成故事生成回复空间很大难于自动评价vs大语言模型自动化评价的核心是构建评测方法让回复空间受限模型评测的主要方法人工评价自动评价公平性可重复低代价GPT-4做评价代价也不低和普通的标注人员成本相当模型评测的主要方法-离线评价
4、vs 在线评价-离线评价:模型部署线上环境前,在离线环境下进行的评价-在线评价:根据模型在线反馈进行的评价净评价值CTR(Click Through Rate)模型评测的主要方式-基于参考答案(reference-based)vs 无参考答案(reference-free)-综合评价vs 多方面评价-样本评分 vs 样本比较或者排序机器翻译:BLEU新闻生成摘要BertScore模型评测的主要方式-基于参考答案(reference-based)vs 无参考答案(reference-free)-综合评价 vs 多方面评价-样本评分 vs 样本比较或者排序综合评价相对困难,一般会转换成多方面评价,
5、以小爱闲聊对话的标准为例:满意度合理性信息度趣味性共情性综合评价多方面评价vs模型评测的主要方式-基于参考答案(reference-based)vs 无参考答案(reference-free)-综合评价 vs 多方面评价-样本评分 vs 样本比较或者排序样本1样本23分4分样本2样本1能够给出模型效果的绝对值可靠性比较高样本评分样本比较大语言模型评价的挑战和方法PART 02大语言模型百花齐放大语言模型评估各自为战1.模型结果的表述方式丰富多彩2.不同评测方式得到的排序结果不同3.目前评测大语言模型没有一个完美、共识的方案大语言模型评估的挑战 模型侧:通用能力强,评测范围广 Prompt敏感,
6、如何公平的比较不同的模型 动态演化 评估侧:多数情况没有标准答案,难以自动评估 普通标注人员能力不足:模型能力 普通标注人员能力大语言模型评估需要关注的问题 能力边界 Case边界 指令形式 自动化量化能力边界语言理解与抽取闲聊上下文对话角色扮演知识与百科生成与创作代码逻辑与推理计算安全SuperCLUE-Open是一个多轮开放域中文基准,包括600个高质量多轮问题。这里面的问题用于评估中文大模型对话能力和遵循指令的能力https:/ 是一款开源、高效、全面的评测大模型体系及开放平台。基于语言、知识、推理、学科、理解,5大维度,50余个数据集评估大语言模型能力https:/ act as an