A1--崔润泽--基于行业benchmark的智能体评测.pdf-在线下载-三个皮匠报告

1、崔润泽蚂蚁集团高级测试开发工程师崔润泽蚂蚁集团高级测试开发工程师负责行业benchmark设计、行业大模型评测、评测技术研发等工作，保障线上大模型业务水位稳定。日常主要工作为协助业务质量团队，从工程、数据、算法角度出发，攻克评测流程例里的各项技术难点。目录CONTENTS大模型评测概述0102行业评测Benchmark评测核心技术解析03未来挑战与展望04PART 01大模型评测概述Why 为什么要做评测 AI领域期刊出版物数量 2.4 倍（vs 2015）AI领域专利数量上涨 62.7%（2021）可量化的跟踪领域进展领域中的模型是不是变得更强了客观、可重复地验证模型的变化多个模型之间的

2、对比模型A在哪个方面更强？模型B更适合什么任务？评测训练/微调过程中的进展经过训练效果是否有变好？哪种训练策略会更有效？哪部分训练数据是有效数据？大模型评测的重要性How 评测标准AIIA（中国人工智能产业发展联盟）发布的智能体技术要求与评估方法，为智能体效果评测提供了具体的指导建议与评估方法。技术能力能力域/能力项具体指标项应用服务评估维度How 评测用例平台名称平台名称主要机构主要机构类型类型核心能力核心能力产品特色产品特色How 评估方法评估方法自动化评估：基于条件概率、答案提取，多用于封闭集评测绝对评估：基于完备的标准，专家标注并计算绝对分数对比评估：多模型对比、排位对战ranking

3、PART 02行业评测Benchmark行业智能体民生助手出行助手行业做为支付宝的业务先锋，积极与外部机构深度合作，在政务民生、出行酒旅、物流行业为用户提供智能化的服务。行业智能体训练流程Badcase驱动的评测离线评测（含对抗）模型推理结果标注其他渠道反馈线上效果评测行业评测集构建评测任务执行推理结果标注badcase归因评测报告生成问题归因效果优化算法优化线上数据采样结果标注（效率）算法迭代速度 vs 人工标注效率行业评测集（效果）基准评测是“实际效果”表现的代理指标。评测结果是否能够代表模型能力的真实水位？评测结果的改进是否可信？行业高质量语料不足的问题推理执行（效率）相比传统L

4、LM，行业智能体涉及到多轮会话与服务卡片等复杂交互，推理过程中需要模拟真实用户的理解与动作问题归因（效果&效率）需要理解算法工程全链路，在推理标注结果产出后归因到关键技术模块（安全拦截、意图识别、RAG召回-FAQ/知识图谱/全网搜、服务挂载、内容生成等）评测方法演进基础语言能力行业知识能力逻辑推理能力多模态能力评测维度行业Benchmark评测集质量语料修复语料质量检测语料自动修复语料质量验证语料问题分类PART 03评测核心技术解析合成数据通过思维链合成数据评测用例合成基于seed种子增强基于思维连生成方法：语言模型生成、语义相似性扩展（sentence-bert）、同义词替换、模板生成、typo模拟等合成标准答案动态多轮评测动态多轮评测数据合成智能标注AI辅助评测工具仍然存在局限性LLM as a Judge：事实性、指令遵循、连贯性和推理能力参考答案有一定的帮助可以通过提示词增强、微调等方式提升精准度，但是成本较高PART 04未来展望评测体系演变趋势机遇与挑战感谢聆听关注公众号