《联想:智能语音技术白皮书(2023版)(84页).pdf》由会员分享,可在线阅读,更多相关《联想:智能语音技术白皮书(2023版)(84页).pdf(84页珍藏版)》请在三个皮匠报告上搜索。
1、 联想智能语音技术 白皮书(2023 版)联想智能语音技术白皮书 I 1 前言.1 2 智能语音技术发展背景.3 2.1 智能语音技术发展历史.3 2.2 联想语音技术研发布局.8 3 联想智能语音关键技术.10 3.1 前端信号处理.10 3.1.1 语音活动检测.11 3.1.2 回声消除.13 3.1.3 噪声抑制.14 3.1.4 波束形成.16 3.1.5 声源定位.17 3.1.6 去混响.19 3.1.7 语音分离.21 3.2 语音唤醒.22 3.3 语音识别.26 3.3.1 混合架构语音识别系统.27 3.3.2 端到端语音识别系统.29 3.4 语音合成.35 3.5 副
2、语言语音属性分析.39 3.5.1 声纹识别.39 3.5.2 音频分类.44 3.6 说话人日志.46 联想智能语音技术白皮书 II 3.7 英语发音评估.51 4 联想智能语音服务平台.54 4.1 服务平台整体架构.54 4.2 使用方法及特点.55 5 联想智能语音产品和解决方案.57 5.1 联想小乐语音助手.57 5.2 基于 AI Chip 的声纹唤醒解决方案.59 5.3 联想智能座舱语音解决方案.60 5.4 联想智能语音客服系统.63 5.5 联想智能会议语音识别系统.67 5.6 联想智慧教育英语口语评估系统.72 6 智能语音技术展望.75 6.1 多模语音交互达到“类
3、人”水平.75 6.2 语音设备生态走向开放互联.76 6.3 离线语音技术进一步提升语音产品渗透率.76 参考文献.77 联想智能语音技术白皮书 1 1 前言 语音是指人类通过发音系统,包括肺部、气管、喉部声门和声带、咽腔、口腔、鼻腔等,发出的在空气中传播的、具有一定意义的声音,是语言的声音形式,是人人交流中最主要的信息载体。另外,通过让机器能听会说,语音也成为人机交互的重要入口。语音技术一般包括传输、存储、识别、合成、增强等方面,智能语音技术的研发主要聚焦于语音的识别理解、合成输出和声音增强。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段1。对智能语音技术的
4、研究可追溯到上个世纪 50 年代,在经历了萌芽期、起步期、变革期后,目前正在进入发展高峰期。由智能语音技术驱动的语音用户界面已成为键盘鼠标、触摸之后的新一代人机交互界面。语音识别技术更是被认为已具备较高的成熟度水平,随着 PC、平板、手机、IOT 等设备走入了千家万户,消费者对其依赖程度越来越高,同时还为不同行业提供语音转文字的基本通用能力,如在智慧客服、智慧教育等垂直领域。技术进步也带来了智能语音市场规模的快速增长,德勤报告显示,预计 2030 年消费级应用场景将超过 700 亿元,企业级应用场景在疫情的催化下也将加速发展,预计会达到千亿规模2。联想结合自身在智能设备以及教育、服务等领域的优
5、势,布局智能语音技术的研发,推进产品落地。联想是首家实现手机超低功耗全时语音识别系统量产的厂商,采用自有 IP 的声纹和唤醒技术,实现了全球首款支持在关机和待机状态下通过声纹唤醒的 PC 产品。在人工智能领域为行业发展做出了诸多突破性和引领性的贡献。本白皮书通过回顾智能语音技术发展历程,阐述联想在智能语音领域的研发布局和思考,带领读者了解联想深耕语音核心技术所取得的突破,以及基于自研核心技术搭建智能语音服务平台,并介绍联想在自研语音平台支撑下结合自身优势在语音产品和应用上的实践案例,最后展望联想智能语音技术白皮书 2 未来发展趋势。联想智能语音技术白皮书 3 2 智能语音技术发展背景 2.12
6、.1 智能语音技术智能语音技术发展发展历史历史 对语音技术的研究可追溯至上世纪 50 年代。受限于计算机能力和信号处理技术水平,早期学者们对语音技术的研究主要聚焦在声学语音学方面,开发的识别系统可用来识别通过模拟装置产生的在频谱上具有共振峰特性的不同元音。1952 年贝尔实验室研发出第一个特定人数字识别系统 Audery,该系统可以识别英文发音的 10 个阿拉伯数字 09,对熟人发音的识别准确率达到 90%以上,对陌生人则偏低。1962 年 IBM 推出 Shoebox 系统,可以识别和理解 16 个英文单词,以及对 10 个数字进行加减运算的语音指令。1972 年,CMU 发布了针对孤立词语
7、以及简单句式的语音识别系统 Harpy,该系统能够识别 1011 个单词,使大词汇量、孤立词识别取得突破性进展。同期语音端点检测的概念和方法也被提出,进一步提升了语音识别的能力。随着线性预测编码和动态规划技术的发展,语音信号建模问题和时序匹配问题得到了更好的解决,建模思路也开始从传统的基于模板匹配的方法发展为基于概率统计的方法,从而将语音识别从孤立词识别阶段推进到连续语音识别阶段。进入二十世纪 80 年代,隐马尔可夫模型(HMM,Hidden Markov Model)被用来建模短时平稳的语音信号的动态特性,解决连续语音识别问题。1988 年第一个非特定人、大词汇量、连续语音识别系统 SPHI
8、NX 问世,可支持近 1000 个词汇。进入 90 年代,GMM-HMM(GMM,Gaussian Mixture Model)成为语音识别的主流框架,语音识别水平也在逐渐提升,实现了超过上万词汇量的大词表连续语音识别系统(LVCSR,Large Vocabulary Continuous Speech Recognition)。然而,受限于训练语料规模、模型建模能力以及计算机水平,这一时期技术水平只能支持简单的产品形态,未达到支持大规模商用的成熟度。2006 年基于深度学习理论的建模方法在机器学习任务被成功应用。深度神经网络(DNN,Deep Neural Network)通过多层非线性结构
9、将输入特征转换为更加抽象的高层表示,具有更强联想智能语音技术白皮书 4 的特征表达能力和建模能力。2009 年 DNN 成功取代 GMM 对语音信号进行特征变换和状态预测,DNN-HMM 的混合框架也成为语音识别的主力架构,将语音识别性能相对提升 30%,取得突破性进展。随后语音识别技术更加快速地发展起来,卷积神经网络(CNN,Convolutional Neural Network)被用来提取更精细和更鲁邦的特征表示,长短时记忆网络(LSTM,Long-short Term Memory)用于建模长时时序动态相关性,说话人自适应声学模型和鉴别性训练等技术都使得系统性能持续提升。到 2017
10、年微软公布 Switchboard 任务错误率达到 5.1%,与人类识别水平相当。DNN 除在语音识别领域取得成功外,也为其他语音处理技术带来了突破,如声纹识别、语种识别、音频分类等都可以利用深度神经网络的特征表达能力将不定长的帧级输入转为固定维度的深度嵌入向量特征(Deep Embedding),再针对目标任务进行分类和判别。这些分析语音中除语义内容以外其他信息的任务被统称为副语言语音属性识别,可以采用统一的 Deep Embedding 框架,相比传统的统计建模方法有显著优势。技术瓶颈的突破为智能语音行业带来了快速迭代升级,HMM-Hybrid 框架已经在很多语音产品和行业中落地商用。近年
11、来端到端语音识别系统(End-to-end ASR)快速发展起来。端到端的语音识别框架直接建立语音和输出的字母或音素之间的映射关系,将声学模型、语言模型和发音模型以统一的目标容纳到一个整体中,与传统 Hybrid 框架相比简化了建模过程。目前主流的端到端模型主要包括CTC(Connectionist Temporal Classification)、RNN-Transducer以及基于注意力机制的LAS(Listen,Attend and Spell)等。单从语音识别的性能来看,End-to-end ASR 已经逐渐赶超 Hybrid 框架,表现出更强的鲁棒性。相信随着在实际复杂场景的应用中不
12、断进行打磨,端到端语音识别系统的应用成熟度会越来越高,并进一步推动语音产业的发展。语音识别是让机器听懂人说话,而语音合成是为了让机器更准确、更自然地表达。语音合成的历史可以追溯到 17 世纪法国人研发的机械式说话装置。在 19 世纪开始研究电子语音合成技术,语音合成技术得到了飞速发展。1939 年贝尔实验室利用共振峰原理制作出第一个电子式语联想智能语音技术白皮书 5 音合成器 VODER0,1960 年瑞典语言学家 G.Fant 阐述了语音产生的理论,极大地推动了语音合成技术的发展。1980 年 E.Moulines 和 F.Charpentier 提出了 PSOLA(Pitch Synchr
13、onous Overlap Add)3 算法,使得合成语音更加自然。19 世纪 90 年代,语音合成商用系统还是以单元挑选与波形拼接的方法为主,基于大语料库,从预先录制和标注好的音频库中选择合适的语音片段进行拼接,得到最终合成的声音4。这种方法可以保持较高的语音质量,但无法保证领域外文本的合成效果,并且很难在移动设备上离线部署。20 世纪末,基于统计建模和机器学习的语音合成技术被提出。语音合成的技术框架在此时已基本形成,由文本前端、声学模型、声码器三部分组成。文本前端负责将输入的待合成文本转换成较为复杂的语言学特征;声学模型负责将语言学特征映射为声学参数特征;声码器负责将声学参数特征重建为最终
14、的时域波形。这种方法可以利用较少的语音数据快速地构建出语音合成系统,且不受语料库限制,支持离线部署和嵌入式设备等多样化语音合成的需求。但该方法所需的语言学特征较为复杂,且由于生成的声学特征参数过于平滑等问题,合成语音的自然度仍然有待提升。进入 21 世纪,随着深度学习的飞速发展,基于统计建模的语音合成技术逐渐被深度神经网络所取代。基于深度学习的语音合成技术将声学模型输入所需的复杂语言学特征简化为包含韵律信息的拼音/音素序列,甚至可以直接将文本作为输入。得益于深度神经网络强大的建模能力,语音合成的质量和自然度有了大幅提升,有些情况下甚至难以分辨是合成语音还是真实语音。在人机交互中,除了语音识别和
15、语音合成,为了让机器“听清”复杂场景下的语音信号,前端信号处理技术也是非常重要的部分。前端信号处理就是利用数字信号处理技术对语音信号进行一系列处理,以实现存储、传输,增强等目的。根据要解决的问题,可以分为多个方向,包括语音活动检测、回声消除、噪声抑制、波束形成、声源定位、去混响和语音分离等。上个世纪,联想智能语音技术白皮书 6 随着数字信号处理技术的发展,语音前端信号处理的各个方向都有相应的经典算法提出。语音活动检测最早的方法是基于语音能量,后续又有各种效果更好的特征被提出,一些经典的算法也被国际标准所采用,例如国际电信联盟电信标准分局(International Telecommunicat
16、ion Union,ITU-T)的 G.729B、第三代合作伙伴计划(The Third Generation Partner Project,3GPP)的自适应多速率编码(Adaptive Multi-Rate,AMR)等。这些方法通过提取特征,并与阈值比较来实现语音或非语音的判断。由于在复杂噪声环境下,这些方法可能性能会下降,有研究提出基于隐马尔可夫模型(Hidden Markov Model,HMM)的方法。近些年来,神经网络在语音活动检测发现得到广泛应用,获得了优异的性能,同时具有良好的噪声鲁棒性。由于早期电话应用使用低延时的模拟技术并且通讯距离普遍较短,回声消除问题在当时并不明显。2
17、0 世纪中叶以后,由于卫星系统发展,需要解决遇到的回声消除问题。一种方法是使用切换的方式来隔断回音信号,这种方法虽然有效,但会导致交谈不自然。上个世纪六十年代以前,普遍采用一种叫回声抑制器的方法来实现回声消除,其原理是对回声进行一定程度衰减从而提高通信质量,但是只适用于时间延迟很小的场景。而随着卫星通信和 IP 电话的发展,传输时延有可能超过 100-300ms,回声抑制器在这种情况下不再有效,因此需要对回声消除技术进行更多的研究。在众多方法中,基于自适应滤波器的回声消除技术表现良好,逐渐成为主流方向。20 世纪 80 年代以来,国际电联 ITU 先后制定了消除线路回声的 G165(Echo
18、Canceller),消除音频终端回声的 G167(Acoustic Echo Canceller)及消除数字网络回波的 G 168(Digital Network Echo Canceller)等国际标准。近些年,基于神经网络的回声消除方法不断被提出,获得了优于传统方法的性能。噪声抑制的研究始于 20 世纪 70 年代。1978 年,Lim 和 Oppenheim 提出了基于维纳滤波的方法。1979 年,Boll 提出了谱减法来抑制噪声。1980 年,Maulay 和 Malpass 提出了软判决噪声抑制的方法。1984 年,Ephraim 和 Malah 提出了基于 MMSE 短时谱幅度估
19、计的方法。1987 年,联想智能语音技术白皮书 7 Paliwal 把卡尔曼滤波引入到语音增强领域。在多年的研究中,越来越多的方法不断被提出。近些年,基于神经网络的方法能够实现对稳态和非稳态噪声很好的抑制,同时能够做到对语音的失真影响极小。波束形成最基本的方法是延迟求和技术。1969 年,Capon 提出了最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成算法,是目前应用广泛的自适应波束形成方法之一。1972 年,Frost 提出了线性约束最小方差(Linearly Constrained Minimum Variance,
20、LCMV)波束形成器,它实际上是 MVDR 的扩展。1982 年 Griffiths 提出了广义旁瓣相消器,避免了 LCMV 推导过程中的约束条件。神经网络技术近年来也被应用于波束形成中,通过神经,实现对信号统计量更准确的估计,从而获得更好的性能。声源定位的常用算法是 1976 年 Knapp 提出了广义互相关方法,利用声音时间差和阵列的几何结构计算声源方位。1979 年 Schmidt 等人提出了多重信号分类方法,对方位的估计具有很高的分辨率,同时对麦克风阵列的阵型没有要求。此外也有学者提出了可控波束响应的方法,基于不同方向上的波束形成后的功率谱实现定位。波束形成方法也可用于去混响,但目前常
21、用的方法主要是基于逆滤波的方法。2010 年Nakatani 提出的加权预测误差算法,能够实现良好的去混响效果。而后的研究借助神经网络对其进行改进,通过神经网络更准确地估计信号统计量,实现了更好的效果。除了通过神经网络估计信号统计量,也有越来越多的研究尝试直接从混响语音中估计直达语音来实现去混响。语音分离的经典方法是独立成分分析,在此基础上,又发展出多种新方法,例如独立向量分析等。近些年,基于神经网络的语音分离方法的性能能够很好地将多个说话人的语音分离开来,而通过引入说话人的信息,能够实现针对特定用户的语音分离,效果进一步得到提升。随着多年的发展,不断有新的前端信号处理技术被提出,这些技术将不
22、断为语音系统中的后续模块,例如语音识别、语音通信等提供越来越好的使用体验。联想智能语音技术白皮书 8 2.22.2 联想联想语音语音技术技术研发研发布局布局 联想集团自 2011 年开始投入语音研发,目前已涵盖声学前端、语音识别、语音合成、声纹识别、音频分类、语音评测等方向的全栈技术,支持联想产品和应用。图 2-1 联想语音技术研发历程 2013 年联想发布并开始运营支持引擎自由插拔的第一代自适应语音平台,通过平台输出语音能力支持各类设备上的语音应用,如 PC 照片大师(PhotoMaster)的语音搜索。凭借设备端优势,联想语音也为行业发展做出了诸多突破性和引领性的贡献。2014 年成为率先
23、发布“One-shot Touchless”免触语音拨号和接听功能的中国公司。2015 年联想手机语音助手乐语音入驻软件商店,成为当时国内为数不多、支持语音助手自由下载的手机厂商。同时,随着 DNN-HMM 混合语音识别框架性能的不断进步,联想的语音平台也快速切换到自研的基于深度学习的语音识别引擎上。2017 年开始启动第二代语音平台,基于联想自研核心技术输出语音识别、语音合成等SaaS 服务,并实现语音识别全场景覆盖,包括短语音识别、长语音识别、电话语音识别等功能,应用于联想中国区出货的所有品牌手机上的预装语音助手。除了近场语音识别,为了在 IOT 场景打造更优秀的用户体验,联想研究院还发力
24、远场语音识别的研发。2019 年在 Interspeech VOiCES国际远场语音识别比赛固定系统项目中,联想远场语音识别系统获得国际第二名。目前联想自研语音平台已全线赋能联想的智能设备,包括 PC、平板、手机和 IOT 设备等。除了在设备端的应用,联想智能语音平台也为不同行业在垂直领域提供语音能力和服务。在联想智能语音技术白皮书 9 智慧教育领域,联想开发了自研的英语口语发音评测引擎,将其应用于智慧教育解决方案中的英语听说模拟考试训练,即在英语听说教室系统中帮助学生进行英语口语的模考和练习。在智能客服领域,基于自研语音识别、语音合成、声纹识别、语义理解等核心引擎构建了联想电话语音识别系统,
25、打造从基础硬件设施层、算法层、产品层到应用层的端到端智能客服解决方案,实现了智能质检、智能 IVR 和智能外呼等应用,大大减少了人工工作量,为联想内部和外部企业的客服中心进行智能化转型赋能。在车载应用场景,联想凭借自身强大的高性能计算优势发力车计算业务,实现了智能座舱中的语音交互解决方案。总体而言,联想智能语音技术研发布局如图 2-2 所示,包括核心技术引擎层、平台层和应用层,结合自身硬件和设备优势,打造了从底层硬件到核心技术算法,再到上层产品和应用,从技术到用户的全链覆盖型企业生态,以用户为中心,提供先进的、差异化的产品和服务。同时,2018 年三方机构报告显示,联想在语音&自然语言处理领域
26、专利数量世界排名第 19 名、中国排名第 3 名5;2019 年国家工业信息安全发展研究中心“人工智能中国专利技术分析报告”显示,联想语音识别领域专利申请量中国排名第 6 名。图 2-2 联想语音技术研发布局 联想智能语音技术白皮书 10 3 联想智能语音关键技术 本章节将介绍联想在智能语音关键技术研发上取得的进展和突破。按语音的应用场景可以将智能语音技术分为人机交互和人人交流两大类。在人机交互方面的应用主要是为了让机器更好地听懂、理解和表达,涉及语音声学前端信号处理、语音识别、说话人识别、语义理解和对话管理,以及语音合成等方面的技术;在人人交流方面主要是人与人自然交谈的“泛会议”场景的应用,
27、例如智能会议、客服质检、智慧医疗等,声学前端处理的目标一方面是获得更准确的识别和分析结果,另一方面是提高人人通话的语音质量。联想在语音核心技术上进行全栈布局,包括声学前端、语音唤醒、语音识别、语音合成、副语言语音属性识别、说话人日志、发音评测等几大方向,单点技术的算法性能在众多国际评测中取得了优异成绩,处于国际前列的水平;同时在推进核心算法落地方面,联想依托设备和行业解决方案上的优势,通过多技术组合打造自研的语音技术解决方案。3.13.1 前端信号处理前端信号处理 在日常生活场景中,语音信号常常会受到各种环境因素的影响,如噪声、回声、干扰人声以及混响等,从而造成语音通信质量变差,语音识别系统的
28、使用体验不佳。语音前端处理技术能够图 3-1 联想语音核心技术模块组成 联想智能语音技术白皮书 11 有效地降低这些不利因素对语音的影响,保障用户使用体验。图 3-2 描述了语音前端信号处理技术所要解决的几个关键问题:回声、噪音、混响和干扰源。回声是指拾音设备在拾取目标说话人的声音时,还拾取了扬声器播放的声音,导致远端说话人会听到自己的说话声。噪声在环境中普遍存在,包括稳态噪声(如空调噪声)和非稳态噪声(如键盘声、敲门声)。混响是由于说话人的信号除了会通过直达路径传播到拾音设备,还会被墙壁等物体表面经过多次反射后再被拾取,较大的混响会对通话质量和语音识别产生一定的影响。干扰源是指来自非目标说话
29、人方向上的语音或噪音。解决这些问题对应的语音前端处理技术主要包括语音活动检测、回声消除、噪声抑制、波束形成、声源定位、去混响、语音分离等。图 3-2 语音前端信号处理技术要解决的关键问题 3.1.1 语音活动检测 语音活动检测(VAD,Voice Activity Detection,or SAD,Speech Activity Detection)用于从音频信号中检测出有效语音片段的起始时间和结束时间。这一技术常常应用于通话系统和语音识别系统,可以减少系统传输数据量和运算负担,尤其当作为语音识别任务的前置模块时,VAD给出的准确时间信息可以有效提升语音识别准确率。联想智能语音技术白皮书 12
30、 VAD 的基本流程如图 3-3 所示:图 3-3 语音端点检测实现方法 首先声音信号通过特征提取模块得到语音特征,提取的特征可以分为时域特征和频域特征。时域特征包括短时能量、短时过零率、最大能量、最小能量等,频域特征包括频谱、基频、谱熵、倒谱等。然后通过判决准则,判定特征对应的音频段属于语音还是非语音。判决准则可以分为三类,分别是基于门限、基于统计模型和基于深度学习的方法。-基于门限的方法:通过对数据特性实时分析,动态地调整阈值,并将特征与阈值对比来实现判决。例如特征为短时能量时,能量大于阈值的音频段即被认为是语音段。-基于统计模型的方法:通常假设语音和非语音各自满足独立的分布,将特征用概率
31、密度函数来描述,从而获得似然比,将似然比与预设的阈值对比实现判决。-基于深度学习的方法:预先用大量标注数据训练好神经网络,基于神经网络模型预测某帧特征属于语音或非语音类别的概率,将概率与阈值对比实现判决。得到的判决结果可能存在一些突变,可以采用一些方法进行平滑。常用的有 HMM、状态机、中值滤波等。早期的 VAD 多为基于门限的方法,这种方法简单快速,在信噪比较高时能够获得较好的效果,而在低信噪比时性能有所下降,这时基于统计模型的方法能够获得更准确的结果。随着深度学习的发展,不同类型的神经网络结构被应用到 VAD 模块中,从基本的 CNN、MLP(Multilayer Perceptron)到
32、 LSTM、ResNet-LSTM(Residual Network-LSTM)、U-Net 等,VAD 准确率得到联想智能语音技术白皮书 13 了不断提升,在低信噪比时也能有很好的表现。联想目前采用的 VAD 方案是一套融合方案,适配不同的需求和应用场景。对于计算资源有限且要求低延迟的场景,我们采用全卷积的网络结构,特征采用 MFCC(Mel-frequency Cepstral Coefficients)以降低输入层维度,从而降低计算量和功耗;对于声学环境特别恶劣、同时对精度有高要求的场景,我们采用了基于 U-Net 的网络结构,特征采用频谱,同时在训练阶段辅以SpecAugment6 等
33、数据增强技术,获得了良好的性能。这套方案在 2021 年 Interspeech Fearless Steps Challenge Phase III 挑战赛中 SAD 赛道获得了第二名7。3.1.2 回声消除 回声消除(AEC,Acoustic Echo Cancellation)的常用场景是两位用户在通话时,远端用户的语音通过远端麦克风拾取并传送给近端用户,近端的扬声器播放后又被近端麦克风拾取并回传给远端,为了避免远端用户听到自己的语音,就要对近端麦克风拾取到的声音进行回声消除。AEC 的基本思想是联合自适应滤波处理和回声后处理,基本原理如图 3-4 所示:图 3-4 回声消除实现方法 A
34、EC 主要包含以下模块:时延估计:扬声器播放的参考信号,经过传播后称为回声,与说话人的语音一起被麦克风拾取作为输入信号。输入信号中的回声与原始信号之间存在一定的时间差,需要估计二者的时延来进行对齐以便于后续的处理。时延估计模块一般可采用互相关算法。联想智能语音技术白皮书 14 线性回声消除:通过估计自适应滤波器系数,对参考信号进行滤波,以模拟回声,再从输入信号中减去模拟的回声,只保留说话人的语音。这一步中,应当尽可能使模拟的回声与真实的回声接近,同时要保护说话人的语音不受到损伤。双讲检测:通话时,滤波器系数一般需要根据实际声学环境来不断更新。当近端和远端同时说话,这种情况被称为双讲。此时近端的
35、语音会导致滤波器系数估计不准确甚至不收敛,因此需要双讲检测技术。当检测到双讲存在时,就固定滤波器的参数不更新,避免滤波器系数的发散。残余回声抑制:由于实际场景中回声与参考信号之间的关系并非线性,因此在应用线性回声消除后,可能依然残留了一定的回声,此时就需要应用非线性处理技术进一步抑制,以获得更好的效果。考虑到算法速度和计算量等因素,联想采用的回声消除方案基本流程如图 3-5 所示:图 3-5 联想 AEC 算法流程图 我们采用了 GCC-PHAT(Generalized Cross Correlation Phase Transformation)方法计算时延,延时信息体现在互功率谱的相位上,
36、与幅度无关,具有较好的鲁棒性。之后采用了 PBFDAF(Partitioned Block Frequency Domain Adaptive Filter)方法进行线性回声消除,这里又分为滤波状态和滤波器系数更新状态两步。最后计算参考信号和麦克风信号的相关系数,以及麦克风信号和残差信号的相关系数,经过若干判断计算得到增益因子 G,与信号相乘得到残余回声抑制后的信号。该方法运算速度快、计算量小,能够获得较好的性能,适合在设备端应用。3.1.3 噪声抑制 人类生活环境中处处存在噪声,在很多情况下会产生不良影响,例如使通话体验变差、语音联想智能语音技术白皮书 15 识别准确率下降等。目前业内主流的
37、噪声抑制方法主要分为以下几类:谱减法:假设噪声为加性噪声且噪声变化是平稳的,可以通过从带噪语音的频谱中估计噪声谱、并将其从信号中减去,从而达到降噪的目的。维纳滤波:是对带噪语音进行滤波的思路,基于最小均方误差准则,最小化滤波后的语音与纯净语音之间的均方误差,然后推导出最优滤波器对信号进行滤波实现降噪效果。基于统计模型的方法:假设语音和噪声是统计独立且服从特定分布,基于统计估计的框架对观测信号进行推导,得到统计模型参数的非线性估计器,从而得到带噪语音频谱的增益系数来实现降噪。子空间方法:子空间方法基于线性代数理论,将纯净信号视为带噪信号欧式空间中的一个子空间,通过将带噪信号向量空间分解为分别由纯
38、净语音主导和噪声信号主导的两个子空间,然后将噪声子空间的分量去除来实现降噪。随着深度学习的发展,神经网络在噪声抑制领域中得到了广泛的应用,通过对纯净语音叠加噪声获取训练数据,训练得到的降噪模型对于稳态和非稳态噪声都具有很好的降噪性能。一些研究直接学习带噪语音幅度谱到纯净语音幅度谱之间的映射关系,也有研究将频谱掩蔽作为学习目标。已有越来越多的模型结构、损失函数等被提出,降噪性能也在不断改善。联想在噪声抑制方面采用了联合方案,对于只含有稳态噪声(例如空调声)的场景,我们采用基于维纳滤波的方案,基本流程如图 3-6 所示:这种方案计算量小、速度快,对稳态噪声有良好的抑制效果。而对于既有稳态噪声又有非
39、稳态噪声(例如咳嗽声、拍手声、键盘声等)的复杂场景,我们采用基于神经网络的端到端方案,图 3-6 联想噪声抑制算法流程图 联想智能语音技术白皮书 16 其训练和降噪的基本流程如图 3-7 所示:图 3-7 联想 AI 噪声抑制算法流程图 目前联想语音降噪模块主要基于 DCCRN8的模型结构进行优化,该模型对众多非平稳噪声都能够实现较好的降噪效果。3.1.4 波束形成 麦克风在拾音时,除了会采集到来自目标说话人方向处的语音,还有可能采集到来自其他方向的非目标说话人语音或噪音,此时利用空域信息的麦克风阵列波束形成技术能够获得相比于单通道算法更好的降噪性能。波束形成的基本原理如图 3-8 所示:图
40、3-8 波束形成原理 声音以波的形式传播,远场语音传播到麦克风阵列处时可以将其视为平面波,各麦克风录制到的声音之间会存在一定差异。波束形成可以分解为两个子过程,首先将每个麦克风录制的声音联想智能语音技术白皮书 17 延迟或提前一段时间,使每个声音中的目标语音信号成分在时间上对齐,之后将对齐的信号进行加权求和。根据加权系数确定方式的不同,波束形成可以分为固定波束形成和自适应波束形成两大类。固定波束形成的加权系数由预先确定的阵列阵型和波束方向所决定,信号的改变对波束计算过程没有影响。自适应波束形成是根据信号和噪声的特性,自适应地估计最优的加权系数。近年来,机器学习与波束形成技术相结合,进一步提高了
41、波束形成的性能。CGMM-MVDR方法通过 CGMM 估计得到带噪语音中的时频掩蔽,提高了对移动声源的跟踪能力和降噪能力。NN-GEV 方法使用神经网络估计带噪语音中的时频掩蔽,实现了对功率谱和导向矢量的估计,进一步提高了性能。联想语音采用的波束形成方案是基于 CGMM-MVDR 9的技术来实现的,基本流程如图 3-9所示。图 3-9 联想波束形成算法流程图 CGMM-MVDR 的基本思想是使用 CGMM 分别估计带噪语音中的语音和噪声的时频掩蔽,进而计算得到语音和噪音的功率谱和协方差矩阵,通过对协方差矩阵应用特征值分解,将最大特征值对应的特征向量作为导向矢量的估计,最后应用 MVDR 实现降
42、噪。该方案不受麦克风阵列的阵型和麦克风数量的限制,能够方便地部署到各种设备上;同时在嘈杂的环境中,能够获得良好的降噪性能,提高 ASR 的识别准确率;此外得益于 CGMM 的无监督性,该方案对于各种噪声场景都具有一定普适性,表现出较好的鲁棒性。3.1.5 声源定位 声源定位技术通过对麦克风阵列采集到的信号进行分析从而得到声源相对于麦克风阵列的方向,主要分为以下几类:1.基于广义互相关(GCC,Generalized Cross Correlation)的方法 联想智能语音技术白皮书 18 这种方法的基本思想是计算两个麦克风信号之间的广义互相关,从而得到声波传播到两个麦克风之间的时间差,再根据阵
43、型的几何结构计算出声波与麦克风阵列所在平面的夹角实现定位。这种方法简单快速,实时性好,但在噪声和混响的环境下性能会受到一定影响。2.基于可控波束响应(SRP,Steered-Response Power)的方法 这种方法的基本思想是对麦克风阵列的接收信号在所有的观测方位进行延迟求和的波束形成,即将各通道信号根据直达声波传递信号路径的差距进行时延,得到一个单通道的增强信号,然后分别求得功率。在多个观测角度上进行遍历,找到能量最大的增强信号,其对应的观测方位就是估计的声源方位。为了使 SRP 算法对环境混响有更好的鲁棒性,相位加权变换(PHAT,Phase Transform)被用来进行频域幅值的
44、归一化操作,仅保留相位信息,从而弱化了无关峰值,对噪声和混响的灵敏度降低,进一步提高了鲁棒性和定位的精准度。3.基于多重信号分类(MUSIC,MUltiple SIgnal Classification)的方法 和 SRP 的设计思路不同,MUSIC 声源定位算法从矩阵分解的角度,将接收信号看成干净语音信号的线性变换和噪声信号的叠加。通过对混合信号的协方差矩阵进行奇异值分解,可以得到信号子空间和噪声子空间。MUSIC 算法使用噪声子空间和各方向的导向矢量构建一个空间谱,遍历空间谱的各点位置,求取峰值所在方位,即为声源对应的方位。MUSIC 算法的主要优点是可以突破麦克风间距的限制,且可以对多个
45、声源进行定位。联想实现的设备端基于麦克风阵列的声源定位功能主要是针对会议场景,采用了基于 SRP-PHAT 的声源定位算法,针对输出稳定性和混响环境下的鲁棒性进行优化迭代,在 3m 远场拾音条件下定位准确度的平均误差在 5 度以内,该方案对单一声源具有更好的通用性和更低的计算量。联想智能语音技术白皮书 19 3.1.6 去混响 在室内录音时,声波不仅会沿直线路径传播到麦克风,还会经过墙壁和其他表面的多次反射进行传播,最终直达声和反射声都被麦克风所录制,这些通过反射传播到麦克风处的声音被称为混响。其中,直达声能量最大,反射声能量在传播过程中被空气和反射材料吸收而逐渐减小,一般将声源停止发声后声压
46、级减少 60dB 所需要的时间定义为混响时间。对于听感来说,适度混响时间能够提升听感,过短的混响时间会导致声音听起来发干,而过长则会导致声音听起来含混不清。根据到达麦克风时间的早晚,可以将混响分为早期混响(晚于直达声 10-50ms)和晚期混响(晚于直达声 50ms 以上),晚期混响会降低 ASR 系统的性能,因此需要对晚期混响进行抑制。目前的去混响方法主要分为以下几类:1.基于波束形成的方法 这种方法通过设计指向目标说话人方向的波束,抑制来自其他方向的声音,从而实现对混响的抑制。2.基于逆滤波的方法 混响的产生可以建模成由原始语音和房间脉冲响应(RIR)卷积得到,从而可以用矩阵乘法来表示。通
47、过计算卷积矩阵的逆矩阵,从而实现去混响。但实际情况中,由于 RIR 是未知的,卷积矩阵也就无法获取。针对这个问题,有两种盲逆滤波的方法:一种方法是先进行盲 RIR 估计再逆滤波。然而盲 RIR 估计到目前为止尚未有一个令人满意的解决方案,因此这种方法去混响的性能有限。另一种方法是直接估计逆滤波器,研究表明,基于多通道线性预测(MCLP)思想的盲逆滤波能够实现较好的去混响效果。MCLP 的基本思想是将当前时刻的信号建模成过去时刻的信号的线性预测与直达信号的和,通过估计线性预测矩阵,可以从当前时刻的信号中减去过去时刻的信号的线性预测实现去混响。考虑到实际语音的特性,有研究提出了加权预测误差(WPE
48、,Weighted Prediction Error)10方法,在 MCLP 的基础上引入了预测延迟,并将语音建模为时变联想智能语音技术白皮书 20 高斯分布(TVG,Time-Varying Gaussian),用过去时刻的信号估计当前时刻信号中的晚期混响并减去,实现了较好的去混响性能,这一方法在很多去混响方案中得到了广泛的应用。考虑到WPE 在计算中需要多次迭代估计信号统计量,有研究提出了使用神经网络估计代替 WPE 中的迭代估计,进一步提高了 WPE 的速度和性能11。3.基于神经网络的方法 近些年来,完全基于神经网络的去混响方法也有了快速的发展。这类方法的基本思想是通过神经网络学习从混
49、响语音的频谱到无混响语音或只含早期混响的语音的时频掩蔽或频谱的映射关系。基于这样的思想,在输入特征、网络结构、损失函数等方向有了越来越多广泛且深入的研究,这些研究中提出的改进都获得了更好的去混响性能。联想语音解决方案中去混响模块是基于 WPE 的方法,通过对设备在各种实际环境下的进行性能调校,实现了更加稳定、鲁棒的去混响效果,实现流程如图 3-10 所示:图 3-10 联想语音去混响算法流程图 混响语音提取频谱特征后,首先估计功率谱,更新滤波器,得到晚期混响的估计,之后对晚期混响进行抑制,再进行时频反变换得到去混响语音。后续功率谱通过去混响后的频谱进行更新。WPE 方法对语音失真小,在混响环境
50、下能够有效提高 ASR 系统的识别准确率。联想智能语音技术白皮书 21 3.1.7 语音分离 在嘈杂的室内,不同人的说话声,噪音,音乐声,以及混响等同时存在,人能够从这些混合的声音中听懂所关注的内容,这就是语音信号处理领域中著名的“鸡尾酒会”问题。语音分离技术就是围绕这一问题而发展的。语音分离方法常用的有以下几类:1.基于独立成分分析(ICA,Independent Component Analysis)的方法 假设各个声源之间相互独立且服从非高斯分布,且源自各声源的声音是线性瞬时混合的,ICA 通过利用信号的统计独立性实现各声源的分离,例如可以对混合信号做变换,使其非高斯性达到极大,则每个局
51、部极大值对应一个独立成分。常用的非高斯性度量有峭度和负熵。实际情况中,由于语音是宽带信号,且各种声音之间不再是线性瞬时混合,而是有时间延迟的卷积混合,因此常常会在频域上各频点应用 ICA 分离。考虑到分离后的结果会存在不同时间分离得到的各声源的成分排列顺序不一致的问题,有研究对 ICA 进行了扩展,提出独立向量分析(IVA,Independent Vector Analysis)方法,将所有频率成分建模为随机向量变量并同时进行处理,避免了排列问题。通过引入辅助函数,IVA 可以扩展为 AuxIVA 方法,能够进一步提高收敛速度和分离性能。此外,IVA 也可扩展为 OverIVA 方法,以实现麦
52、克风数量大于声源数的情况时的分离。2.基于深度学习的方法 近些年来,基于深度学习的语音分离方法发展迅速。早期大多数方法与基于深度学习的噪声抑制方法类似,通过短时傅里叶变换将时域信号变换到频域信号,用神经网络从混合语音的幅度谱中估计各个声源的幅度谱或时频掩蔽。针对分离结果中存在的“置换问题”,有研究提出了深度聚类方法(Deep Clustering),使用基于亲和力的目标函数来保证说话人的顺序不变,也有研究提出了“置换不变训练”(PIT,Permutation Invariant Training)来解决这一问题。不同于在频域上的实现语音分离,最近越来越多的研究提出了基于时域的端到端解决方案。联
53、想智能语音技术白皮书 22 有研究提出了 TasNet,采用编码器-解码器结构替换了频域方法中的短时傅里叶变换,避免了幅度谱和相位谱的解耦,进一步提高了分离性能。在 TasNet 的基础上,有研究提出了 Conv-TasNet,用 CNN 替代了 LSTM,提高了模型推理速度并降低了模型参数量。此外,也有将 transformer 应用于语音分离的研究。联想的语音分离方案是在语音分离的基础上,针对会议场景下设备端用户个性化应用的需求实现的目标人语音分离技术。基本流程如图 3-11 所示:图 3-11 联想语音分离算法流程图 网络结构基于 DCCRN,语音经过编码层后得到 bottleneck
54、特征,目标人参考语音经过相同结构但不同网络权重的编码层得到目标人的声纹特征,两种特征拼接后,经过 LSTM 层和解码层,得到分离后的目标人的语音。该方案具有较好的分离性能,同时具有一定的降噪性能。3.23.2 语音唤醒语音唤醒 语音唤醒(Voice Trigger)也称唤醒词检测(Wakeup Word Detection)或关键词定位(KWS,Keyword Spotting),可以看作语音识别的子任务。唤醒词识别是在连续音频流中检测预定义的一个唤醒词或一组关键字,同时给出目标唤醒词时间戳的技术12,唤醒技术描述如图 3-12 所示。联想智能语音技术白皮书 23 图 3-12 语音唤醒技术说
55、明 传统的唤醒系统根据音频得到唤醒词的关键信息,从而完成识别功能。训练流程如图 3-13所示。首先使用大量唤醒词和自由文本的音频来训练一个针对特定词的唤醒词识别系统。然后依据训练好的系统计算采集的音频流内唤醒词存在的概率,通过与设定好的阈值进行比较来决定是否唤醒。这种系统具有结构简单、参数较少、计算快速、准确率高、鲁棒性高等优点,我们称这种架构为小尺寸唤醒词识别系统。图 3-13 小尺寸唤醒词识别系统 除 了 常 用 的 小 尺 寸 唤 醒 词 识 别 系 统 外,基 于 样 例 的 口 语 词 检 测(QbESTD,联想智能语音技术白皮书 24 QuerybyExample Spoken T
56、erm Detection)1314 也被广泛使用。通常会先使用大量非唤醒词音频训练一个深层特征提取网络。依据这个特征提取网络来得到有限数量的唤醒词音频的深度特征,最后用这个特征提取网络在实时采集的流式音频中提取特征,采用特定规则构建解码手段来得到唤醒的结果。这种方法的优势在于能够应对各种复杂的语言场景,较为灵活,泛用性高。另一种常见的唤醒词识别系统根据所给文本来完成唤醒功能,用户只需提供唤醒词的文本信息而且不限定唤醒词,整个唤醒系统不依赖于唤醒词音频。大部分文本定义的唤醒词系统是基于语音识别系统的基础进行适当修改得到的15。选用语音识别系统得到实时音频的词格解码结果,将识别所得的状态级词格转
57、换为含有时间戳信息的词语级词格,最后与关键词的 FST(Finite State Transducer)结构进行组合,便可得到唤醒词在被检索语音出现的位置和概率。整个唤醒词系统都是基于语音识别系统进行计算的,所以整体模型尺寸和计算复杂度都要高于小尺寸唤醒词系统,功耗也更大。但是同样是因为基于语音识别系统,该框架的准确率最高,因此适用于精度要求较高的场景。联想两阶段语音唤醒系统 联想针对语音在 PC、手机、IOT 设备上的应用,既要保证算法的准确率,又要兼顾模型计算复杂度,以保证快速响应和低功耗,因此基于小尺寸模型框架设计了两阶段唤醒策略。如图 3-14所示:联想智能语音技术白皮书 25 图 3
58、-14 联想语音唤醒模型结构图 此系统由两阶段唤醒流程组成。在模型训练时,两个阶段唤醒模型分别进行优化,训练流程如图 3-15 所示。图 3-15 联想语音唤醒模型训练流程 在模型推理部分,使用少量计算资源来运行一个非常少量参数构建的唤醒词识别模型。当分数超过阈值时,调用稍大的计算资源来运行第二阶段的唤醒词识别模型来完成最终的唤醒词识别判决。两个唤醒模型的阈值选择遵从“第一阶段唤醒模型尽可能正确判断非唤醒,第二阶段唤醒尽可能正确判断唤醒”的原则,具体选择如图 3-16 所示:联想智能语音技术白皮书 26 图 3-16 联想语音唤醒阈值选择策略 上图为两个阶段模型性能曲线,横轴代表每 100 小
59、时的误唤醒次数,纵轴代表错误拒绝率。模型取不同阈值即可得到一组横纵坐标,最终得到性能曲线。对于一阶段唤醒模型来说,由于参数较少,性能相比二阶段唤醒模型较差,所以一阶段模型性能曲线整体在二阶段模型性能曲线的右上方。选择阈值时,一阶段模型尽可能选择误唤醒次数较高但错误拒绝率较低的阈值,以保证尽可能正确判断非唤醒。因为大部分的非唤醒已经被一阶段模型过滤掉,提交给二阶段模型的音频均和唤醒音频相似,对于二阶段模型,我们选择错误拒绝率较高但误唤醒较低的阈值,以保证尽可能正确判断唤醒。这样两阶段的唤醒模型既保证了快速拒绝非唤醒,又保证了正确唤醒,实现了快速、正确的响应机制。3.33.3 语音识别语音识别 语
60、音识别(Speech Recognition)是把语音转成文字的过程,通过模型计算将语音序列转化为文本序列,即给定输入序列=1,,寻找词序列=1,,使得概率(|)最大,用贝叶斯公式表示为:联想智能语音技术白皮书 27 (|)=(|)()()其中(|)为声学模型(AM,Acoustic Model),求解给定词时声学输入的概率(),为语言模型(LM,Language Model)计算词的概率,()为输入序列概率,固定不变。语音识别就是要优化声学模型(|)和语言模型(),使得(|)最大。目前主流的语音识别框架包括混合架构和端到端架构两种,混合语音识别对两部分分别进行优化,基于端到端的语音识别将两部
61、分进行联合优化,直接求解最优的(|),下面对上述两种不同的语音识别框架进行介绍。3.3.1 混合架构语音识别系统 在语音识别过程中,通过声学模型将语音特征转化为建模单元(一般为音素),然后通过语言模型将一系列建模单元转化为完整一句话,这种声学模型和语言模型分开训练优化的系统称为混合语音识别系统。图 3-17 展示了混合语音识别系统的识别流程,下面将具体介绍识别系统中两个最重要的部分:声学模型和语言模型。图 3-17 混合语音识别系统解码流程 1.声学模型 声学模型是语音识别系统中的重要组成部分。声学模型将声学和发音学的知识进行整合,以语音特征作为输入,为可变长特征序列生成其对应的建模单元序列的
62、概率分布。通过声学模型从特征序列得到其对应的概率最大的建模单元序列,然后通过语言模型将建模单元序列转换为概率最大的文本序列,即得到最终的语音识别结果。不同的声学模型可以对语音进行不同粒度的建联想智能语音技术白皮书 28 模,常用的声学模型建模单元主要有词、子词、音素,其中音素是构成音节的最小单位或最小的发音片段,每种语言的发音都可以用音素组合表达出来,所以声学模型中一般采用音素作为建模单元。在混合语音识别系统中,声学模型主要采用的是“用于序列跳转的隐马尔可夫模型(HMM)“和”根据当前帧来预测状态的深度神经网络(DNN)”混合架构。图 3-18 基于 DNN-HMM 的语音识别声学模型结构 图
63、 3-18 即为 DNN-HMM 混合系统的声学模型结构。在该结构中 HMM 模型用来描述语音信号的动态变化,DNN 用来估计语音特征的观测概率。在给定声学观察特征的条件下,用 DNN的每个输出节点来估计 HMM 的某个状态的后验概率。DNN 中可以通过更换或者组合不同的神经网络结构来更好地描述语音特征,比如可以通过 CNN+LSTM 的结构来更好地捕捉语音中的时序信息。除此之外,DNN-HMM 模型可以通过维特比(Viterbi)算法进行训练和解码,非常高效。2.语言模型 语言模型描述的是在句子中词与词之间的转换概率,一般利用链式法则,把一个句子的概率拆解成其中每个词的概率之积。设W是由nw
64、ww,.,21组成的,则()WP可以拆成:()()()()()1321213121.,|.,|=nnwwwwwPwwwPwwPwPWP 每一项都是在已知之前所有词的条件下当前词出现的概率。实际使用过程中通常不会通过前面所有词的概率计算当前词的概率,而是假设每个词的概率分布只依赖于历史中最后相邻的联想智能语音技术白皮书 29 若干个词,这样的语言模型称为 n-gram 模型。在 n-gram 模型中,每个词的概率分布只依赖于前面 n-1 个词,现在用得比较多的有 tri-gram,four-gram,five-gram。3.解码器 声学模型和语言模型都训练完成之后,通过有限加权状态转化机(WFS
65、T)建立一个 HMM状态到单词的映射,即一个包含所有可能序列的状态空间,然后通过解码器来搜索找到最有可能的状态序列,使得输出的概率最大(即在声学模型得分和语言模型得分最高)。搜索主要通过维特比算法(一种动态规划算法)实现,搜索的过程叫做解码,实现解码的模块即为解码器。在混合语音识别系统中,解码器主要是基于加权有限状态转录机实现。3.3.2 端到端语音识别系统 端到端语音识别技术,是指模型根据输入的语音特征直接输出字符序列不依赖中间建模单元表示、帧级别的对齐信息和复杂的解码过程。端到端的语音识别技术简化了语音识别系统的搭建过程,近几年发展迅速并逐渐成为主流。其中,最主要的三种端到端模型结构分别是
66、 CTC(Connectionist Temporal Classification)模型、Transducer 模型和 Attention-based Encoder-Decoder 模型。1.CTC 模型 CTC 是一个计算输入语音信号和输出字符序列之间对齐信息的目标函数。对于语音识别模型,对齐是指从输入语音信号到输出字符序列的映射关系。由于语音信号和字符序列的长度通常是不相等的,语音的时间步和字符之间的对齐关系通常是多对一的。为了表示语音中的静音(即无说话人语音的片段)和连续相同字符之间的转移关系,CTC 引入了一个 blank 标签,这样便可以定义语音和标签序列之间的一个有效对齐:若一
67、个对齐路径中去除连续的重复字符和之后和标签序列一致,则可认为是一个有效的对齐。图 3-19 展示了字符序列“hello”的三种有效对联想智能语音技术白皮书 30 齐。图 3-19 CTC 解码中的有效对齐 对于一个字符序列,其关于输入语音信号的后验概率可以表示为所有该序列对应的有效对齐的概率之和。CTC 假设每个时间步的输出是相互独立的,即对一条有效对齐来说,其概率是每个时间步上概率相乘计算得到的。CTC 能够有效处理序列分类的问题,但它同时也对输入序列和输出序列引入了两个假设:条件独立性假设:CTC 假设每个时间步的输出是相互独立的。在语音识别任务中,CTC不考虑输出序列上下文之间的语义相关
68、性,通常在解码阶段需要引入一个额外的语言模型来提升识别文本的流畅度。多对一映射:CTC 假设输入序列的长度大于输出序列,即无法处理输出序列长度大于输入序列的情况。2.Transducer 模型 Transducer 模型的提出有效解决了上述 CTC 模型存在的问题,主要包括两方面的改进:1)引入了一个 Predictor 网络和一个 Joint 网络来建模输出序列之前的转移关系;2)允许每个时间步输出多个单元,使得模型能够处理输出序列长度大于输入序列的情况。图 3-20 展示了一个Transducer 模型:联想智能语音技术白皮书 31 图 3-20 Transducer 模型基本结构 Tra
69、nsducer encoder 的功能和 CTC 模型的 encoder 类似,将输入的语音信号编码为一个时序的特征序列,每个时间步的特征对应一个语音片段窗口。Predictor 网络是一个自回归的模型,它的作用类似于一个标准的语言模型,即输入是前面已经输出的字符单元,然后根据已经输出的字符生成用于预测下一个字符的特征。Joint 网络通常由一个简单的全连接网络来实现,它将encoder 和 predictor 网络输出的特征向量进行融合,并输出一个融合后的特征向量,该特征向量被映射到和输出词表(包括 blank 标签)相同的维度上并经过一个 Softmax 非线性函数转化为词表单元上的概率分
70、布。Transducer 允许每个时间步输出多个字符,有效解决了 CTC 无法处理输出序列长度大于输入序列长度的样本的问题。目前,Transducer 模型被广泛应用至流式语音识别场景,根据 encoder 的不同,模型结构可以分为 RNN-Transducer18和 Transformer-Transducer19等。3.LAS(Listen-And-Spell)模型 LAS 模型是一种基于注意力机制的 Encoder-Decoder(AED,Attention-based Encoder-Decoder)模型架构,这类模型最早在自然语言处理领域的机器翻译任务中被提出,后来被广泛应用于诸多序
71、列到序列的预测任务。语音识别任务是一个从输入语音特征序列到输出字符序列的预测任务,AED 也成为了语音识别领域的一类主流端到端模型框架。图 3-21 展示了一个 AED模型的基本架构。联想智能语音技术白皮书 32 图 3-21 AED 模型基本结构 Encoder 网络负责从输入信号中抽取特征,将输入信号表示为隐式特征向量。我们期望隐式特征向量能够包含输入信号的全局信息,并作为输入传给 Decoder 网络。Decoder 负责将 Encoder 输出的隐式特征向量翻译为输出序列。对于一个自回归的 Decoder,其在每一步输入的信息包含两部分:1)Decoder 上一步输出的隐式状态;2)根
72、据该隐式状态在 Encoder 隐式特征上通过注意力机制计算得到的特征加权和。Decoder 输出的隐式状态会被映射到标签维度,并通过 Softmax 函数计算得到标签上的概率分布。通过引入注意力机制解决了编码器无法充分保留长序列上下文信息的问题,模型的优化目标使得注意力机制为当前解码最相关的信息分配更高的注意力。AED 模型的解码是一个自回归的解码过程,每步生成的一个标签,并将前一个生成的标签作为下一步的输入。模型解码通常从一个起始字符(通常表示为)开始,至模型输出终止字符(通常表示为)结束。和传统的 Sequence-to-sequence 模型相比,AED 模型在语音识别任务上能够取得更
73、好的效果,但同时也需要消耗更多的算力。此外,注意力机制为模型带来了更好的可解释性,通过可视化模型在预测输出序列时的注意力分布,能够帮助理解和诊断模型的预测过程。联想智能语音技术白皮书 33 联想语音识别系统 目前联想的语音识别系统针对不同的场景和应用分别开发了基于混合模型的语音识别系统和基于端到端模型的语音识别系统。1.混合语音识别系统 联想基于混合语音识别模型搭建了云端的语音识别引擎,图 3-22 展示了整个识别链路:图 3-22 联想混合语音识别系统 为了更好的用户体验,语音识别系统除了基础的语音识别还需要加入其他模组进行联合优化得到最终的识别结果。联想的混合语音识别系统在前端、后处理、热
74、词响应、声学模型等方面都做了大量优化工作,具体来说有以下几方面:海量数据优化通用场景下的语音识别。本系统语言模型基于TB级语料迭代,不同领域、多种来源的语料可以使模型在通用场景下达到稳定可靠的识别效果,对于新领域也可以做到快速适配和迭代。支持中英混识别。本系统的声学模型采用国际统一音标,可以记录大多数国家的语言的音素。同时,联想针对中英文常用词汇建立了完善的发音词典,构建的中英混合识别系统有效解决了诸多应用场景中语音出现的 code-switching 问题。支持一句话短语音识别,也支持连续长语音实时识别;既支持在线识别模式,也支持离线文件识别模式。通过使用不同的深度神经网络结构来适应不同应用
75、场景和需求。联想智能语音技术白皮书 34 支持用户热词(Hot Word),以提高目标场景专有名词召回率。热词技术方案并不需要训练语言模型,可实现快速更新和生效。2.端到端语音识别系统 除了混合识别框架,联想也开发了基于端到端的 two-pass 语音识别系统,系统结构如图 3-23 所示。图 3-23 联想端到端语音识别系统 语音首先经过共享编码器抽象成为深层特征,然后一条链路将每个时间步的输出依次传给RNN Transducer 解码器,RNN Transducer 可以实时地输出识别结果;另一条链路在整条语音解析完成后,将全部输出传给附加编码器,附加编码器进一步抽取特征将输出传给 AED
76、 解码器,AED 解码器因为看到了整条语音的信息可以更好地识别语音,所以可通过 AED 的结果来进一步对 RNNT 的输出进行重打分,这就是 two-pass 的链路。联想端到端语音识别系统具备以下优势:体积小,效率高,便于部署。RNN-T 较为轻量,可以不需要语言模型直接识别出结果,可以很好地部署在端侧。一个系统同时实现流式与非流式识别,无需格外训练。RNN-T 可以实时输出识别结果,联想智能语音技术白皮书 35 同时通过 AED 的重打分也可以进一步对 RNNT 的结果进行纠正,从而获得准确率更高的非流式识别结果,用于离线文件识别、会议纪要等场景。3.43.4 语音合成语音合成 语音合成(
77、Speech Synthesis),也被称作 Text-to-Speech,是一种将文本转换为语音的技术。它使得机器可以拥有像人一样自如说话的能力,是人机语音交互中的重要一环。基于深度学习的语音合成技术因其自然度较好,是现在商用合成系统的主力框架,主要结构如图 3-24 所示。系统由三部分构成:文本前端、声学模型和声码器。文本前端负责将输入的文本规范化、字形序列转换为声韵母或音素序列、添加韵律信息,最终生成包含语言学特征的序列并输入到声学模型中;声学模型将该语言学特征转换为声学频谱特征;声码器将该频谱特征重建为时域波形,得到最终的语音。图 3-24 基于深度学习的语音合成技术框架 1.文本前端
78、 文本前端将输入的文本转换为包含语言学特征的序列,通常由三个模块组成:文本预处理模块、G2P(Grapheme-to-Phoneme)模块和韵律预测模块。文本预处理模块将输入的文本做一些正则化处理,将阿拉伯数字、单位符号和其他特殊符号转成发音文字。例如:输入“温度 15-35”,输出“温度十五到三十五摄氏度”。它是文本前端的难点,目前主流方法仍然是基于规则的方法。G2P 模块负责将字形序列转换为声韵母或音素序列。转换出的序列单元代表了后续声学模型的建模单元。对于中文而言,可以使用声韵母或音素作为建模单元,一般会将韵母或元音音素后添加音调,如:韵母 ao1,元音 AW1。G2P 的转换过程涉及多
79、音字预测和变调处理。很多语种联想智能语音技术白皮书 36 中都含有多音字,例如中文中,“早晨的朝(zhao1)阳”和“朝(chao2)阳区”中的“朝”字,字形相同,但发音不同,多音字预测一般采用多音字词典结合模型预测的方式。变调处理包括三声变调、“一”、“不”变调、轻声变调、儿化音变调等。变调处理一般采用基于规则的方法。韵律预测模块负责预测出文本中的韵律特征。根据停顿时间从长到短,韵律特征可以分为以下几个层级:语调短语、韵律短语、韵律词。韵律预测通常采用分词结合模型预测的方式进行。2.声学模型 声学模型将语言学特征序列转换为声学频谱特征。语言学特征序列通常为包含韵律特征的声韵母或音素序列,声学
80、频谱特征通常为线性频谱或梅尔频谱。声学模型通常也由三部分组成:编码器、对齐模块和解码器。图 3-25 声学模型框架 如图 3-25 所示,语言学特征序列输入到编码器得到隐状态序列,经由对齐模块后输入到解码器得到最终的声学频谱序列。编码器和解码器可以由多种模型结构组成,典型结构多以 CNN,、RNN 和 Transformer 为主,例如 Deep Speech 系列20、Tacotron 系列21、Fastspeech 系列22 等。中间的对齐模块,在传统的 Seq2Seq 架构中会使用注意力机制(Attention)来进行对齐的学习,比如 Tacotron 系列的模型但由于整个模型自回归的结
81、构,导致模型推理速度较慢。另外由 Fastspeech 提出了一种非自回归的模型结构,由时长预测模型来学习音素序列与声学特征帧数之间的对齐关系,再由一个长度调节器直接将编码器得到的隐状态序列复制扩展到和声学特征相同的长度,再输入解码器中。虽然这种方式大大提高了模型推理的速度,但如何获取每个音素对应的持续帧数来训练时长预测模型仍是一个问题。有两种方法可以解决这一问题。一种是使用外部对齐:Fastspeech 从预训练的基于自回归注意力的 TTS 模型中提取对齐信息;Fastspeech2 使用一个强制对齐工具来获得对齐信息。另一种是使用内部对齐:JDI-T 采用与一联想智能语音技术白皮书 37
82、个自回归模型联合训练的方式来获取对齐信息;GlowTTS 使用 monotonic alignment search 来提取对齐信息;AlignTTS 在训练阶段利用统计特征和前后向算法得到对齐。然而,这些方法通常训练过程复杂、训练时间长或需要强制对齐工具。联想提出了一种简化有效的方式来解决这一问题,将在后续章节详细介绍。3.声码器 声码器(Vocoder)负责将声学特征还原为时域波形。基于神经网络的声码器通常是一个生成模型,有自回归模型(WaveNet,、WaveRNN,、LPCNet 等)、基于流(Flow)的模型(WaveGlow等)以及基于生成对抗网络(GAN,Generative A
83、dversarial Networks)的模型(MelGAN、HiFiGAN23等)。目前学术界和工业界大都采用基于 GAN 的模型,其中 HiFiGAN 是目前较为常用的模型。联想语音合成系统 联想语音合成系统也基于业界主流技术构建。其中,我们提出了一种不需要额外对齐的简化且有效的声学模型来解决非自回归声学模型中的对齐问题24。整个模型的结构如图 3-26 所示:联想智能语音技术白皮书 38 图 3-26 联想语音合成系统声学模型结构图 左边是一个基于 Transformer 的合成器(Synthesizer),它基于类似 Fastspeech 中的 Feed Forward Transfo
84、rmer(FFT)结构。合成器由五部分组成:Phone Embedding,Lower FFT Block,Length Regulator,Higher FFT Block 和 Linear Layer。受 Fastspeech 系列的启发,模型也采用时长预测模型为长度调节器生成时长信息,它可以扩展输入的文本隐状态序列以匹配梅尔频谱的长度。为了获得持续时间的 Ground Truth 来训练时长预测模型,我们提出了一种对齐生成器(Alignment Generator)。受到 CTC 的语音识别的启发,我们引入了一个基于 CTC 的识别模块作为内部对齐生成器,以提供梅尔谱图和音素序列的对齐信
85、息,作为时长预测模型学习的 Ground Truth。在训练阶段,损失函数由三部分组成:预测和真实值之间的梅尔谱的 MAE 损失、对齐生成器训练的 CTC 损失和时长预测模型的持续时间损失。对齐生成器仅用于训练阶段:使用前向后向算法来计算 CTC 损失;使用维特比算法找到最大似然路径作为对齐,对齐可以转换为持续时联想智能语音技术白皮书 39 间的 Ground Truth D。在推理阶段,我们只使用时长预测模型来获得长度调节器所需要的持续时间。这种不需要额外对齐的声学模型在保证了合成语音质量和推理速度的同时,大大简化了训练流程。3.53.5 副语言语音属性分析副语言语音属性分析 语音中除了语言
86、语义信息,还包含着丰富的非语义信息,如人的性别、年龄、情感、语种、健康状态、环境中声音事件以及音频场景等,可以统称为副语言语音属性。对于这些富信息(Rich information)的识别技术称为副语言语音属性分析技术,一般情况下可以采用统一的算法框架来解决通用问题。下面就以声纹识别和音频分类为典型技术进行说明。3.5.1 声纹识别 声纹识别,即说话人识别,是通过一段语音对说话人身份进行确认或辨识的技术。按照应用场景不同,声纹识别可以分为说话人确认(Speaker Verification)与说话人辨识(Speaker Identification)两大任务。说话人确认用于判断待测语音与已有的
87、注册语音是否来自同一说话人,是 1:1 的问题;说话人辨识用于判断待测语音属于语音库中哪一个说话人,是 1:N的问题。按照待测语音内容的不同,说话人确认又可分为文本相关的说话人确认与文本无关的说话人确认两大类。文本相关的说话人确认任务要求待测语音的内容为指定的语音内容,如一串数字或者特定的短语;文本无关的说话人确认任务对待测语音的内容没有限制。声纹识别的技术路线经历了从传统统计方法到深度学习方法的转变。传统的声纹识别技术包括特征提取、建模和后端分类等几个步骤,较具有代表性的是基于高斯混合模型(GMM,Gaussian mixture model)的 i-vector25技术。传统方法由于是几个
CNNIC:第29次《中国互联网络发展状况统计报告》(66页).pdf
CNNIC:第28次《中国互联网络发展状况统计报告》(49页).pdf
CNNIC:第27次《中国互联网络发展状况统计报告》(124页).pdf
CNNIC:第26次《中国互联网络发展状况统计报告》(50页).pdf
CNNIC:第25次《中国互联网络发展状况统计报告》(95页).pdf
CNNIC:第24次《中国互联网络发展状况统计报告》(58页).pdf
CNNIC:第23次《中国互联网络发展状况统计报告》(124页).pdf
CNNIC:第22次《中国互联网络发展状况统计报告》(57页).pdf
CNNIC:第21次《中国互联网络发展状况统计报告》(114页).pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
线上健身第一股-keep招股说明书(463页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
小红书:2023年度生活趋势报告(34页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
工业4.0俱乐部:ChatGPT认知白皮书(151页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
哈尔滨工业大学:ChatGPT调研报告(94页).pdf