1、AI在叮咚智能音箱中的演进和应用智能音箱市场分析智能音箱中的AI技术智能音箱的发展趋势讨论环节智能音箱市场分析智能音箱中的AI技术TTS语音合成VAD语音激活检测语音唤醒声纹翻译和评测TTS语音合成将文本转换成声音可播放,使用的场景非常多TTS在近几年的发展状况:能提供TTS合成技术的厂家越来越多制作一个TTS发音人的成本越来越低,包括研发成本和时间成本TTS合成技术本身,在自然度和流畅度上,也有不断的进步关于TTS大家关注的焦点关注点自然音质多选择甜美TTS合成在未来的发展用自己的声音来作为TTS发音人目前已能做到读一篇2000字的文章,即可生成这个人的音库。技术已经成熟,很快就会应用到智能
2、音箱中。存在的问题:用户得有点耐心,将这2000字读完是亮点、卖点,但不少用户可能更喜欢预置的甜美的声音用户提供的语料非常少,提取的特征有限,相对于深度定制,人声的相似度要略差一些。带情感的TTS合成文本是有场景的,例如新闻、笑话、恐怖小说、武侠小说等。在指定使用场景的情况下,用特定的节奏、韵律和语气来合成是没问题的需要解决的问题是,能否自动甄别出使用场景,不然可能就出笑话基于大数据的情感分析技术VAD语音激活检测语音激活检测,又称端点检测,分为前端点和后端点前端点:检测语音什么时候开始不再是静音。可用于判断人开始说话。后端点:检测语音什么时候开始从有声音变成是静音。可用于判断说话结束。端点检
3、测的意义:捕捉有效的音频,再进行后续的处理,减少不必要的数据处理。VAD目前的现状和发展基于声音能量的VAD叠加人声检测和基于用户意图的动态VAD能量VAD改由硬件实现背景:目前很多芯片产品也冠了AI之名,将之前在软件层做的算法放到了硬件层,如VAD、CNN,加速算法的执行,减小CPU的消耗基于人声检测和用户意图的动态VAD前端点和后端点超时时间的设置严重关乎用户体验如何来解决有噪音环境下的端点检测问题信息的及时反馈,不一定要等用户把话都说完了再输出识别结果语音唤醒用户说指定的唤醒词,设备识别出之后才能进行后续的识别和操作。为什么要有唤醒?唤醒引擎必须要是本地引擎,而不能是云端的。智能音箱如果
4、要支持唤醒,就意味着持续的录音,如果在家中放个音箱,它在不断的进行录音和上传到别人的服务器上,这是件多么恐怖的事情。亚马逊智能音箱窃听风波语音唤醒技术的现状支持语音唤醒的音箱,市面上多见的有2麦、3麦、4麦、6麦、7+1麦。在开放的环境下,Mic的数量越多,可唤醒的距离越远、识别的效果越好。但考虑到结构等方面的因素,不能完全看Mic的数量来评价唤醒效果的好坏。麦克风阵列的作用声源定位回声消除噪声抑制增益调节主流产品的唤醒效果对比我们的坚持为了保证唤醒和识别效果,主流产品坚持使用6麦或7+1麦阵列充分做好结构的验证,产品长什么样,不完全是ID说了算,确保结构设计不会影响到唤醒和识别效果做好硬件的
5、验证,确保录音的品质(包括录音音质、各通道的同步性等)大量的数据分析,针对误唤醒和未唤醒算法层面持续迭代,第三代基于CNN模型的唤醒和声学处理算法,通过对大量样本的离线处理和效果分析,形成了很好的处理效果唤醒词的自定义目前很多款智能音箱,都有固定的唤醒词,诸如天猫精灵、小爱同学、若琪为了保证较好的唤醒效果,厂商也会在唤醒词的选择上下足功夫从用户角度:好记、朗朗上口从数据角度:容易唤醒、不容易误唤醒、日常生活中不太容易听到从厂商角度:兼顾以上两点自定义唤醒词,用户可以给音箱设置自己喜欢的唤醒词,比方可以把叮咚音箱的唤醒词设置成天猫精灵。我们有统计过,对于支持设置自定义唤醒词的设备,有60%以上的
6、用户修改了唤醒词。自定义唤醒词的技术难点自定义唤醒训练模型的数据唤醒门限的设定唤醒词的评估设备运算能力基于泛化技术形成数据模型为了保证唤醒率,唤醒词往往需要百万级别的训练数据才能生成模型。自定义唤醒词,没有现成的训练数据,要依托大数据的技术、直接泛化成相应的数据模型,来保证训练数据的数量。自动的阈值调整目前业界的唤醒方案基本上都涉及调节唤醒的阈值阈值设置高了,唤醒率低,阈值设置低了,误唤醒又多,需要选取一个平衡点常规做法:先选定唤醒词,然后在一个大的测试集上进行调节常规方案不适合自定义唤醒的实时需求,为此我们研发了一套稳定的阈值设置方案,针对不同唤醒词自动设置唤醒阈值。唤醒效果评价机制并非所有