1、 联想智能语音技术 白皮书(2023 版)联想智能语音技术白皮书 I 1 前言.1 2 智能语音技术发展背景.3 2.1 智能语音技术发展历史.3 2.2 联想语音技术研发布局.8 3 联想智能语音关键技术.10 3.1 前端信号处理.10 3.1.1 语音活动检测.11 3.1.2 回声消除.13 3.1.3 噪声抑制.14 3.1.4 波束形成.16 3.1.5 声源定位.17 3.1.6 去混响.19 3.1.7 语音分离.21 3.2 语音唤醒.22 3.3 语音识别.26 3.3.1 混合架构语音识别系统.27 3.3.2 端到端语音识别系统.29 3.4 语音合成.35 3.5 副
2、语言语音属性分析.39 3.5.1 声纹识别.39 3.5.2 音频分类.44 3.6 说话人日志.46 联想智能语音技术白皮书 II 3.7 英语发音评估.51 4 联想智能语音服务平台.54 4.1 服务平台整体架构.54 4.2 使用方法及特点.55 5 联想智能语音产品和解决方案.57 5.1 联想小乐语音助手.57 5.2 基于 AI Chip 的声纹唤醒解决方案.59 5.3 联想智能座舱语音解决方案.60 5.4 联想智能语音客服系统.63 5.5 联想智能会议语音识别系统.67 5.6 联想智慧教育英语口语评估系统.72 6 智能语音技术展望.75 6.1 多模语音交互达到“类
3、人”水平.75 6.2 语音设备生态走向开放互联.76 6.3 离线语音技术进一步提升语音产品渗透率.76 参考文献.77 联想智能语音技术白皮书 1 1 前言 语音是指人类通过发音系统,包括肺部、气管、喉部声门和声带、咽腔、口腔、鼻腔等,发出的在空气中传播的、具有一定意义的声音,是语言的声音形式,是人人交流中最主要的信息载体。另外,通过让机器能听会说,语音也成为人机交互的重要入口。语音技术一般包括传输、存储、识别、合成、增强等方面,智能语音技术的研发主要聚焦于语音的识别理解、合成输出和声音增强。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段1。对智能语音技术的
4、研究可追溯到上个世纪 50 年代,在经历了萌芽期、起步期、变革期后,目前正在进入发展高峰期。由智能语音技术驱动的语音用户界面已成为键盘鼠标、触摸之后的新一代人机交互界面。语音识别技术更是被认为已具备较高的成熟度水平,随着 PC、平板、手机、IOT 等设备走入了千家万户,消费者对其依赖程度越来越高,同时还为不同行业提供语音转文字的基本通用能力,如在智慧客服、智慧教育等垂直领域。技术进步也带来了智能语音市场规模的快速增长,德勤报告显示,预计 2030 年消费级应用场景将超过 700 亿元,企业级应用场景在疫情的催化下也将加速发展,预计会达到千亿规模2。联想结合自身在智能设备以及教育、服务等领域的优
5、势,布局智能语音技术的研发,推进产品落地。联想是首家实现手机超低功耗全时语音识别系统量产的厂商,采用自有 IP 的声纹和唤醒技术,实现了全球首款支持在关机和待机状态下通过声纹唤醒的 PC 产品。在人工智能领域为行业发展做出了诸多突破性和引领性的贡献。本白皮书通过回顾智能语音技术发展历程,阐述联想在智能语音领域的研发布局和思考,带领读者了解联想深耕语音核心技术所取得的突破,以及基于自研核心技术搭建智能语音服务平台,并介绍联想在自研语音平台支撑下结合自身优势在语音产品和应用上的实践案例,最后展望联想智能语音技术白皮书 2 未来发展趋势。联想智能语音技术白皮书 3 2 智能语音技术发展背景 2.12
6、.1 智能语音技术智能语音技术发展发展历史历史 对语音技术的研究可追溯至上世纪 50 年代。受限于计算机能力和信号处理技术水平,早期学者们对语音技术的研究主要聚焦在声学语音学方面,开发的识别系统可用来识别通过模拟装置产生的在频谱上具有共振峰特性的不同元音。1952 年贝尔实验室研发出第一个特定人数字识别系统 Audery,该系统可以识别英文发音的 10 个阿拉伯数字 09,对熟人发音的识别准确率达到 90%以上,对陌生人则偏低。1962 年 IBM 推出 Shoebox 系统,可以识别和理解 16 个英文单词,以及对 10 个数字进行加减运算的语音指令。1972 年,CMU 发布了针对孤立词语