当前位置:首页 > 报告详情

2-张炳淑-智能服务分层评测体系.pdf

上传人: 2*** 编号:152015 2024-01-05 40页 8.15MB

1、智能对话指标评测体系张炳淑蚂蚁集团 测试开发专家本文件仅供技术交流,不得用于商业用途。本文件内容严格保密,未经许可,任何组织和个人不得复制、传播张炳淑(雨湉)校招入职蚂蚁集团后,先后负责财富平台、社区内容及智能服务场景,从事智能服务场景质量工作5年,目前为财保事业群-财保技术部-财富及平台-智能服务质量负责人。蚂蚁集团-财保事业群-测试开发专家嘉宾照片目录CONTENTS!#$%&!#$%&01 !#$%()*+!#$%()*+02#$,-./#$,-./03 ,-012.,-012.04 Badcase3405 56706 01!#$%&!#$%&智能对话的发展历程1960 年ELIZA 第

2、一个被引用的聊天机器人诞生1972 年帕里是第一个狭义领域通过图灵测试的对话机器人2005 年苹果发布了SIRI2016 年Google 发布了 Google Assistant2018 年OpenAI发布GPT系列2001 年Eugene Goostman,通过了有史以来最大的图灵测试29%评委-13岁虚拟男孩1950 年今天智能对话的应用近年来,人工智能技术的快速发展已经在各个领域展现出了巨大的潜力和应用前景。其中,智能对话系统作为人工智能技术的一个重要分支,正逐渐成为人们生活中不可或缺的一部分。智能音响车载语音助手导诊/导购机器人软件客服机器人ChatGPT智能对话系统的分类任务型闲聊型

3、问答型智能助手(订票,导航等)客服系统聊天机器人综合机器人任务型对话的典型架构Pipeline式ASR-语音-文本TTS-文本-语音NLU(Natural Language Understanding)-意图理解DM(Dialogue Manager)-对话系统的中控NLG(Natural Language Generation)自然语言生成02!#$()%!#$()%*+,-.*+,-.智能对话场景的质量难点大量算法模型引入-输入无限集、输出不确定,评测难度、评价难度增加内容可控-对话内容的安全、可控、符合业务场景要求(金融严谨性)海量badcase-链路高复杂度,归因处理困难智能对话质量被

4、cue 的top问题问法想全了没?用户会问这种Case吗这些Case执行完,就能上线了是吗?这个迭代效果咋样,聪明点了没?这么多badcase,到底是哪儿的问题?智能对话系统质量要解决的几大问题1、评测怎么做?2、怎么评估好坏?3、怎么做问题归因?你觉得xxx现在是个什么水平?03智能对话评测系统智能对话评测体系1、评测怎么做-评测目标智能对话评测体系评测体系考试体系1、评测怎么做-评测方案北极星指标:对话准确率能力项指标:意图理解准确率情绪识别准确率知识储备率北极星指标:总分能力项指标:计算题得分阅读理解题得分创作写作题得分智能对话评测体系1、评测怎么做-评测方案需要解决2大重点问题:1、考

5、题系统、2、阅卷系统考点完备性分层管理可信力敏捷性准确性阅卷成本1、考题系统2、阅卷系统智能对话评测体系(金融样本库)1、评测怎么做-评测方案-考题系统(分层评测)智能对话评测体系1、评测怎么做-评测方案-考题系统(不同层评测集的关系示例)智能对话评测体系基金是什么?基今是什么?啥是基金讲下基金不懂怎么理财,能不能先给我讲讲,比如基金智能对话评测体系ParaphrasingNoisingSamplingPrompt Engineering(PE)!基础金融样本!NLP数据增强算法!#生成式大模型!$对抗生成金融知识、百科问答等标问双机器人模拟对抗测试1、评测怎么做-考题系统智能对话评测体系1、

6、评测怎么做-考题系统-泛化生成传统NLP样本增强算法Paraphrasing(改写:保留原始的语义下,更改句子中的词、短语、句子结构);Noising(噪音:在保证label不变的同时,增加一些离散或连续的噪声,保留原始语义);Sampling(多样:旨在根据目前的数据分布选取新的样本,会生成更多样的数据)生成式大模型推理泛化Prompt设计:情景、约束、输入、输出、反馈泛化能力-问法泛化推理能力-安全攻防智能对话评测体系双机器人对抗用例生成示例1、评测怎么做-考题系统-对抗生成双机器人对抗相似度模型判别Acc94

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了智能对话系统的评测体系、发展历程、质量难点以及未来展望。 智能对话系统评测体系方面,提出了以对话准确率为北极星指标的评测方案,包括能力项指标如意图理解准确率、情绪识别准确率、知识储备率等。同时,提出了评测体系的分层管理和可信力、敏捷性、准确性的要求。 在智能对话系统的发展历程中,提到了ELIZA、帕里、SIRI、Google Assistant、GPT等里程碑式的人工智能产品。 针对智能对话系统的质量难点,文章指出,由于算法的引入,输入输出不确定性增加,评测难度加大;同时,内容需要可控,确保对话安全、符合业务场景;此外,海量badcase的处理也是一大挑战。 未来展望方面,随着大模型时代的到来,智能对话系统的可控性评测以及多模型指标的智能化归因及预测将成为重要研究方向。 本文提出了一套完整的智能对话评测体系,包括评测目标、评测方案、考题系统和阅卷系统,并在金融领域进行了应用实践。该评测体系已成功提升了对话系统的准确率和badcase修复率,为智能对话系统的研究和应用提供了有力支持。
"智能对话系统质量评测体系如何构建?" "双机器人对抗测试在智能对话评测中的应用是什么?" "智能对话系统质量评估中的北极星指标有哪些?"
客服
商务合作
小程序
服务号
折叠