1-张志远-智能语音技术测试体系建设.pdf-三个皮匠报告

1、智能语音技术测试体系建设2023 深圳站张志远负责OPPO小布助手整体质量保障，有CI/CD流程构建、业界标准制定、自动化测试、全链路压测等实践经验。曾就职于网易，从事敏捷测试、平台开发、质量改进和专项测试等工作。OPPO 高级软件测试工程师嘉宾照片2023 深圳站目录CONTENTS背景和意义01 测试场景及解决方案02 听得清-自动语音识别2.1未来展望03 听得懂-自然语言处理2.2 怎么做-对话管理2.3怎么说-语音合成2.42023 深圳站01背景和意义2023 深圳站业务背景-小布助手2023 深圳站业务背景-场景特点情感智能个性设备类型众多领域涉及广泛2023 深圳站业务背景-

2、场景特点情感智能个性设备类型众多领域涉及广泛2023 深圳站ASR（自动语音识别）01NLP（自然语言处理）0203DM（对话管理）04TTS（语音合成）听得清。用于将声学语音进行分析，并得到对应的文字或拼音信息。听得懂。用于将用户的指令转换为结构化的、机器可以理解的语言。怎么做。是对话式交互系统的核心，负责控制整个对话过程。怎么说。即将文本转换成语音，让机器说话。业务背景-语音交互过程2023 深圳站2.1听得清ASR（自动语音识别）：将声学语音进行分析，并得到对应的文字或拼音信息。2023 深圳站ASR测试-介绍自动语音识别自动语音识别（Automatic Speech Recogniti

3、on,ASR）是指通过电脑自动将人类的语音内容转换为相应的文字的过程。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。2023 深圳站ASR识别主要涉及算法效果验证，测试集选取不合理导致结果差异大人工测试效率低，声音质量和音色单一，不能代表真实用户普通音响无法模拟真实人声，测试环境不稳定，结果易受干扰场景构造困难，无法覆盖用户主要场景数据选取环境模拟测试效率场景构造ASR测试-痛点2023 深圳站ASR测试-关键指标字错率字错率(WER)(WER)：Word error rate，词错率，但一般称为字错率，指的是识别结果中替换、删除、插入字符占总字符

4、的比例。S 为替换的字数，常用缩写WSD 为删除的字数，常用缩写WDI 为插入的字数，常用缩写WIH 为正确的字数，常用缩写WHN 为（S替换+D删除+H正确）的字数句错率句错率(SER)(SER)：Sentence Error Rate，指的是句子识别错误的的个数，除以总的句子个数即为SER，计算公式：SER=错误句数/总句数。首字时延（首字时延（TfTf）：计算客户端向服务端发送第一帧语音数据开始，到客户端第一次收到服务端发送的中间结果的时间差。尾包时延（尾包时延（TeTe）：计算客户端向服务端发送最后一帧语音数据开始，到客户端收到服务端发送的最后结果的时间差。2023 深圳站ASR测试-

5、测试方法接口测试：接口测试：方法录制好音频后直接通过接口灌入识别模型优点执行效率高，每小时1w条，成本低廉缺点无法表征端到端表现场景后端算法模型迭代2023 深圳站ASR测试-测试方法端到端测试：端到端测试：方法通过语音助手录制音频发送到服务端获取优点可模拟真实用户操作方法和使用场景，还原度高缺点成本较高、测试效率低场景竞品对比、端到端全链路测试2023 深圳站ASR测试-语料来源语料优化策略，确保领域覆盖充分，测试结果稳定测试集描述目的线上回归集线上脱敏标注数据保障线上效果稳定实验室录制覆盖语音助手不同领域的query，比如音频视频、指令、闹钟、导航等衡量不同领域维度效果数据厂商采买覆盖不同

6、区域、年龄、性别、口音（线上用户调研分布）评测不同场景下的效果TTS合成通过批量生成不同说法文本，利用TTS输出音频指定语料快速生成badcase测试发现、用户反馈等非共性问题提升用户体验热词抓取定期抓取网络热门词语句子，对测试集进行补充保障热点说法可识别语料分渠道搜集：语料分渠道搜集：2023 深圳站ASR测试-场景构造场景场景描述加权值人工干预布局示意图办公室噪音办公室噪音混响时间：0.44，距离：30cm人声噪音（收音处）：60-65db环境噪音（收音处）：55-69db13%1.调整混响消声板安静安静混响时间：0.44，距离：30cm人声噪音（收音处）：60-65db环境噪音（收音处）

1-张志远-智能语音技术测试体系建设.pdf

相关报告