《出⻔问问端到端语⾳合成系统的研-陈云琳.pdf》由会员分享,可在线阅读,更多相关《出⻔问问端到端语⾳合成系统的研-陈云琳.pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、出问问端到端语合成系统的研究与应陈云琳 2021.11.26Mobvoi MeetVoiceOutline 语合成概述 出问问语合成发展历程 出问问语合成技术摘要 出问问语合成应产品 出问问技术最新进展 MeetVoice 端到端系统介绍 MeetParameter-端到端合成框架介绍 MeetVocoder-神经络Vocoder框架介绍 数据量端到端语合成的挑战与解决案 端到端系统的最新研究 出问问语合成业实践 智能语播报:载语助 配产品:魔坊,赋能视频创作者 声克隆:个性化定制声 总结与展望语合成概述语产过程1.语产原理 肺部产流,引起声带振动,经过喉咙、腔和腔等,发出声 声道:由声带、声
2、、腔、腔等组成,是发声的主要共鸣和调制器官(声到唇,约17cm)2.声基本概念 调/基周期-声开启闭合次时间即振动周期 基频-基周期的倒数,声带振动的频率 声带振动频率,调;幅度,响度。反之则反 的基范围:50 550Hz,童性偏,男性偏低 声道功能:谐振腔/产谐振频率,由每瞬间的声道外形决定,称共振峰 浊,轻,爆破 语合成系统框架 本处理以及分析(TA)-前端(front-end)本:90后为中华共和国成70周年准备了礼 TN:九零后为中华共和国成七周年准备了礼 分词,注 韵律预测:(韵律词,韵律短语,语调短语)CRF/LSTM+CRF 九零后#1为中华#1共和国#2成七周年#3准备了礼#4
3、 声学模型参数以及语成-后端(back-end)声学模型预测声学参数 根据声学参数预测声 Vocoder:声学参数-speech 拼接系统:从现有的speech inventory找出合适的单元进拼接 出问问历代TTS引擎Meet-Paramter:Mobvoi第一代端到端TTS Engine2018.12Mobvoi第一代TTS Engine上线:基于HMM的传统参数合成2015.07MeetVoice离线端到端低时延TTS Engine2020.08基于HMM的离线TTS Engine2016.05基于tflite的GRU TTS Engine(离线)2018.052019.08MeetV
4、oice:Mobvoi全CPU端到端低时延TTS Engine第代引擎-基于HMM的语合成系统 输:本(语境)特征 名称,包括前后两个窗quin-phone 声调,当前素的声调(也可以加前后两个节声调)层级相关,层级单元中低层级单元的位置和数 语句语调短语韵律短语韵律词节状态 其他信息,例如当前节的停顿、词性以及词等信息 输出:声学特征 谱特征:41维的LSP特征,包括静态和阶、阶差分特征(跟发声器官相关的特征)基频特征,log域基频值以及阶、阶差分特征 对于时模型:时,状态的帧数(每个声韵持续的时间)Summary优点缺点训练速度快质不好,有机械感Small footprint模型平均,没有
5、准确预测参数合成速度常快依赖源滤波器vocoderHMM决策树 本到声学特征的映射由决策树来完成 决策树把声学空间拆分成集 不 浅层模型并不能建模本到声复杂的映射关系 模型声泛化,听起来缺乏抑扬顿挫第代引擎-LSTM 系统框架 输特征表示 将数字表示的特征进保留,如“当前节所包含的素数=5”,则在神经络的输的对应维度写上5;将类别的特征使one hot 表示法,即和类别数样维度的 向量表示该特征,如当前素为b,b 在素列表中是第2个,总共素66个,我们就在第2维填上1,其他65维填上0;增加状态信息,如“当前帧处于第5 个状态”,总共7 状态建 模,则将状态信息表示为“0 0 0 0 1 0
6、0”。输出特征:和HMM的输出特征致Summary优点缺点神经络更好的拟合参数仅仅预测语参数的均值,没有多样性能够拟合语依赖的特性时模型和声学模型分开建模合成速度快依然使源滤波器声码器Traditional Parametric TTS-Summary HMM 频不连续,因为只是预测依赖聚类后的统计信息 Fragmented representation-聚类 Feedforward NN 分布式表式:输feature可以使word embedding,输出特征frame级别表示,频不是特别连续,因为frame之间是独的、不相关的 LSTM/GRU/RNN 频较smoothing,并且可以达到