阿里技术:阿里机器智能:语音与信号处理技术精选专辑(38页).pdf

编号:9932 PDF 38页 1.84MB 下载积分:VIP专享
下载报告请您先登录!

阿里技术:阿里机器智能:语音与信号处理技术精选专辑(38页).pdf

1、 更多独家干货,扫码进阿里云开发者社区获取 本书著作权归阿里巴巴集团所有, 未经授权不得进行转载或其他任何形式的二次传播。 | 序言 ICASSP (International Conference on Acoustics, Speech, and Signal Processing)是由 IEEE 信号处理协会(IEEE Signal Processing Society)组织的 语音研究领域的顶级会议之一,和 INTERSPEECH(Annual Conference of the International Speech Communication Association)并称为国际语

2、音领域最 著名、 影响力最大的两个学术会议。 相对于 INTERSPEECH 主要侧重语音方面的 研究和应用,ICASSP 会议更加侧重声学、语音信号以及语音建模相关的学术讨 论,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会。在 ICASSP2018 中,阿里一共发表了 5 篇论文,分别涵盖语音识别、语音合成以及 情感识别三个方向。 在论文 基于深层前馈序列记忆网络, 如何将语音合成速度提升四倍? 中, 作者提出了一种基于深度前馈序列记忆网络的语音合成系统, 该系统在达到与基 于双向长短时记忆单元的语音合成系统一致的主观听感的同时, 模型大小只有后 者的四分之一,且合成速度是后

3、者的四倍,非常适合于对内存占用和计算效率非 常敏感的端上产品环境。 在论文为了更精确的情感识别,A-LSTM 出现了中,作者针对 LSTM 时 间依赖局限性问题, 提出了高级长短期记忆网络 (advanced LSTM (A-LSTM)) 模型,利用线性组合,将若干时间点的本层状态都结合起来,以打破传统 LSTM 的这种局限性。在这篇文章中,我们将 A-LSTM 应用于情感识别中。实验结果 显示, 与应用传统 LSTM 的系统相比, 应用了 A-LSTM 的系统能相对提高 5.5% 的识别率。 在论文为了让机器听懂“长篇大论”,阿里工程师构建了新模型中,作 者提出了一种改进的前馈序列记忆神经网

4、络结构, 称之为深层前馈序列记忆神经 网络(DFSMN) ,进一步地将深层前馈序列记忆神经网络和低帧率(LFR)技术 相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别 和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向 循环神经网络(BLSTM)的识别系统显著的性能提升。而且 LFR-DFSMN 在训 练速度, 模型参数量, 解码速度, 而且模型的延时上相比于 BLSTM 都具有明显 的优势。 在论文示范了 200 句后,我的声音“双胞胎”诞生了! 中,作者提出了 基于线性网络的语音合成说话人自适应算法, 该算法对每个说话人学习特定的线 性网络,

5、从而获得属于目标说话人的声学模型,通过该算法,使用 200 句目标 说话人的自适应语料训练的说话人自适应系统能够获得和使用 1000 句训练的 说话人相关系统相近的合成效果。 在论文朋友,我能分享你的喜怒吗?阿里语音情感识别框架揭秘中,作 者提出了一套包含多个子系统的复合情感识别框架。 这一框架会深入挖掘输入语 音中与情感相关的各个方面的信息,从而提高系统的顽健性。 每年 INTERSPEECH 或者 ICASSP 都是语音学术界和工业界的一次盛会, 从 Deep Learning 在 2010 年左右引入语音领域,到现在几乎所有的论文都直接 或者间接以神经网络模型进行尝试, 语音技术在最近几

6、年发生了翻天覆地的变化。 近几年贴近实际产品的论文越来越多, 语音领域的各大研究机构和知名公司 纷纷做出了更实际、更靠谱的工作,相关产品问题也随之暴露和慢慢地被解决, 整个语音技术已经逐渐走到了实际应用的阶段, 近几年越来越多的语音设备产品 的问世和火爆也说明了这一点。我们将 ICASSP2018 会议上收录的论文编辑成 册,希望通过这个方式,更多的和学术界、工业界同行共同探讨、共同进步,衷 心的希望语音技术继续百家争鸣、百花齐放,早日把靠谱的语音交互能力带到各 行各业、带进千家万户,真正地帮助到人们的工作和生活! 阿里巴巴高级算法专家 雷鸣 2019 年 3 月 于北京 目录 基于深度前馈序

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里技术:阿里机器智能:语音与信号处理技术精选专辑(38页).pdf)为本站 (潘多拉魔盒) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠