《2-张炳淑-智能服务分层评测体系.pdf》由会员分享,可在线阅读,更多相关《2-张炳淑-智能服务分层评测体系.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、智能对话指标评测体系张炳淑蚂蚁集团 测试开发专家本文件仅供技术交流,不得用于商业用途。本文件内容严格保密,未经许可,任何组织和个人不得复制、传播张炳淑(雨湉)校招入职蚂蚁集团后,先后负责财富平台、社区内容及智能服务场景,从事智能服务场景质量工作5年,目前为财保事业群-财保技术部-财富及平台-智能服务质量负责人。蚂蚁集团-财保事业群-测试开发专家嘉宾照片目录CONTENTS!#$%&!#$%&01 !#$%()*+!#$%()*+02#$,-./#$,-./03 ,-012.,-012.04 Badcase3405 56706 01!#$%&!#$%&智能对话的发展历程1960 年ELIZA 第
2、一个被引用的聊天机器人诞生1972 年帕里是第一个狭义领域通过图灵测试的对话机器人2005 年苹果发布了SIRI2016 年Google 发布了 Google Assistant2018 年OpenAI发布GPT系列2001 年Eugene Goostman,通过了有史以来最大的图灵测试29%评委-13岁虚拟男孩1950 年今天智能对话的应用近年来,人工智能技术的快速发展已经在各个领域展现出了巨大的潜力和应用前景。其中,智能对话系统作为人工智能技术的一个重要分支,正逐渐成为人们生活中不可或缺的一部分。智能音响车载语音助手导诊/导购机器人软件客服机器人ChatGPT智能对话系统的分类任务型闲聊型
3、问答型智能助手(订票,导航等)客服系统聊天机器人综合机器人任务型对话的典型架构Pipeline式ASR-语音-文本TTS-文本-语音NLU(Natural Language Understanding)-意图理解DM(Dialogue Manager)-对话系统的中控NLG(Natural Language Generation)自然语言生成02!#$()%!#$()%*+,-.*+,-.智能对话场景的质量难点大量算法模型引入-输入无限集、输出不确定,评测难度、评价难度增加内容可控-对话内容的安全、可控、符合业务场景要求(金融严谨性)海量badcase-链路高复杂度,归因处理困难智能对话质量被
4、cue 的top问题问法想全了没?用户会问这种Case吗这些Case执行完,就能上线了是吗?这个迭代效果咋样,聪明点了没?这么多badcase,到底是哪儿的问题?智能对话系统质量要解决的几大问题1、评测怎么做?2、怎么评估好坏?3、怎么做问题归因?你觉得xxx现在是个什么水平?03智能对话评测系统智能对话评测体系1、评测怎么做-评测目标智能对话评测体系评测体系考试体系1、评测怎么做-评测方案北极星指标:对话准确率能力项指标:意图理解准确率情绪识别准确率知识储备率北极星指标:总分能力项指标:计算题得分阅读理解题得分创作写作题得分智能对话评测体系1、评测怎么做-评测方案需要解决2大重点问题:1、考
5、题系统、2、阅卷系统考点完备性分层管理可信力敏捷性准确性阅卷成本1、考题系统2、阅卷系统智能对话评测体系(金融样本库)1、评测怎么做-评测方案-考题系统(分层评测)智能对话评测体系1、评测怎么做-评测方案-考题系统(不同层评测集的关系示例)智能对话评测体系基金是什么?基今是什么?啥是基金讲下基金不懂怎么理财,能不能先给我讲讲,比如基金智能对话评测体系ParaphrasingNoisingSamplingPrompt Engineering(PE)!基础金融样本!NLP数据增强算法!#生成式大模型!$对抗生成金融知识、百科问答等标问双机器人模拟对抗测试1、评测怎么做-考题系统智能对话评测体系1、
6、评测怎么做-考题系统-泛化生成传统NLP样本增强算法Paraphrasing(改写:保留原始的语义下,更改句子中的词、短语、句子结构);Noising(噪音:在保证label不变的同时,增加一些离散或连续的噪声,保留原始语义);Sampling(多样:旨在根据目前的数据分布选取新的样本,会生成更多样的数据)生成式大模型推理泛化Prompt设计:情景、约束、输入、输出、反馈泛化能力-问法泛化推理能力-安全攻防智能对话评测体系双机器人对抗用例生成示例1、评测怎么做-考题系统-对抗生成双机器人对抗相似度模型判别Acc94