1、大模型及AI应用效果评估实践黄一鹤百度资深工程师黄一鹤公司名称 职位百度工程效能部Comate Stack团队资深工程师,目前主要负责百度AI原生研发新范式下,Prompt研发全流程、LLM和AI原生应用全场景效果评估的相关工具链建设。同时为智能体&RAG&多模态等典型应用场景提供高质量、高效率的评估解决方案。毕业后先后从事搜索引擎策略&架构质量保障、计算机视觉相关AI模型的算法测试&效果评测、测试在线化相关工具平台的开发工作。目录C O N T E N T S1.评估的重要性2.制定评估方案3.开启评估之旅4.评估应用场景评估的重要性01背景从论文A Survey on Evaluation
2、 of Large Language Models开始:衡量并评估LLM的智能,会为自己的工作提供支持和指引:p 更好地理解LLM的长处和短处:全能还是偏科?记忆还是能力?p 更好地为人机协同提供指导和帮助:Prompt工程、基于LLM的Partner能力优化p 更好地统筹LLM发展的演变、防范未知风险:训练数据是否被污染?大模型伦理与安全AI原生研发的最后一公里需求验证产品研发线上运行p Prompt试验p 大模型选型p AI应用原型验证p Prompt工程p 模型微调、数据上车p AI应用研发p 效果监控、问题定位p 数据回流、badcase挖掘p AI应用竞对p 验证Prompt、LLM
3、以及AI应用是否能够达到预期效果,满足用户需求p 帮助研发人员定位问题,持续迭代和优化效果以提升用户满意度效果评估制定评估方案02用搭积木的方式制定评估方案评估方案p 评估目标:结合AI原生应用的场景,以及当前所处的研发流程阶段,明确评估目标是什么。p 评估策略:根据评估目标、对象(AI原生应用)和场景,制定具体的评估策略。p 评估集:评估集与评估对象、评估策略密切相关。在构建评估集时,通常需要考虑来源、组成、难度、量级等四个因素。p 评估方式:具体指采用人工还是自动化的方式进行评估。评估方式是与评估指标相关联的,即使是同一个场景的多个指标,也可能分人工评估和自动化评估两种方式p 评估流程:通
4、常包含推理与评估两个阶段,当协作人员较多时,可能需要增加互审及验收环节。p 评估报告:评估结束后要输出完整报告,对评估进行全面的分析总结,判断是否完成评估目标。开启评估之旅03评估前准备:制定评估策略 衡量评估对象效果的不同角度。例如事实正确性、理解正确性等。评估维度 针对评估维度的打分结果,所计算出来的衡量模型效果的指标。例如召回率、准确率、用户满意度等。评估指标 描述评估标准、尺度的说明性文字,即每个评估维度的打分原则、每个分值代表的含义等。评估规则 评估过程中的便捷记录,用来标记选择该分值的原因,可以在打低分或高分时标记。评估标签评估前准备:构建评估集来源获取难度获取成本获取量时效性直接
5、可用性特点及注意事项脱敏日志一般一般高强需要甄选日志可用性低,需清洗公开评测集容易低中等低需要精调可能被训练过,需要精调人工构建较难高低中等直接可用可用性高,但是成本很高自动构建困难一般中等中等稍微挑选一般为人工构建范式生成在构建评估集中每一个具体场景的数据时,应该从题目条件数量、涉及知识难度、题目约束数量、推理难度、反常识/事实等维度进行通盘考虑,确保评估集涵盖了不同难度的数据。来源场景组成数据量难度评估集要有版本管理,并且符合不同密级数据的安全性要求。存储评估前准备:构建评估集回流与采集质检与加工筛选与抽样数据回流数据采集数据合成数据清洗Trace聚合语义聚类去重场景识别与挖掘数据筛选数据
6、标注指令构建问题分析数据审核实际工作中,我们广泛采用多种数据生产工具,并组合搭建成数据生产流,快速批量的生产数据。数据可以用于SFT/RAG/Agent,也可以用于评估集构建。同时,这套数据生产流支持自定义工具(API接入),方便业务将自己的特定场景的数据生产算子应用于数据生产流。实践:评估策略定制、管理2.策略自定义1.策略在线管理3.算法自动化评估4.AI Grading自动化评估实践:评估集管理2.评估集标签管理4.评估集在线编辑1.评估集在线管理3.评估集在线查看评估执行:评估方式评估方式成本效率准确难度适合的场景适合的Case(举例说明)备注自动化评估低成本高效率低准确高难度有确切答