1、允公允能日新月异智能语音技术的下一个十年智能语音技术的下一个十年秦勇 HLT实验室 计算机学院周家名 王卉 孙浩钦 王恩志 王雪琛 陈杨 刘成 赵菁华 贾宇航智能语音技术发展历程智能语音技术发展历程Source:A Review of Deep Learning Techniques for Speech Processing,AMBUJ MEHRISH诸多热点诸多热点AIAI任务都相当于条件语言模型的建模问题任务都相当于条件语言模型的建模问题中文文本文档图片语音信号文本机器翻译自动摘要看图说话语音识别TTM/TTA/TTS英文文本摘要文本转写文本音乐/音频/声音条件生成对应的任务LLMLLM
2、 任务规范任务规范Primary shift comes from modeling assumptions from single-task to general modelTask descriptions may be provided as text for example,translate this French text to EnglishSingle Task ModelGeneral ModelP(output|input)P(output|input,task)Source:On The Landscape of Spoken Language Models:A Comp
3、rehensive Survey,Siddhant Arora1Spoken Language ModelsSource:On The Landscape of Spoken Language Models:A Comprehensive Survey,Siddhant Arora1Pure Speech LMsGSLM,AudioLM,etc.Source:On The Landscape of Spoken Language Models:A Comprehensive Survey,Siddhant Arora1Speech+Text LMsSpiRit-LM,Moshi,Mini-Om
4、ni,etc.Source:On The Landscape of Spoken Language Models:A Comprehensive Survey,Siddhant Arora1Speech-aware Text LMsSALMONN,Qwen-Audio,etc.从口语从口语语言模型语言模型(SLMs)(SLMs)走向走向多模态多模态语言模型语言模型(MMLLMs)(MMLLMs)SLMs:是一种基于神经网络的大规模模型,能够通过将音频转换到与文本大型语言模型兼容的共享语义空间,实现音频的感知、理解、生成和推理。它将音频感知、音频生成和自然语言处理(NLP)的能力整合在一个统一的
5、模型中。MMLLMs:文本和音频只是整体的一部分,人们希望大型语言模型(LLMs)也能够通过“看”和“听”来理解世界。模型应具备跨模态推理和跨模态学习的能力。91 A Survey on Multimodal Large Language ModelsJ.2 CUI W,DIANZHI Y,JIAO X,et al.Recent Advances in Speech Language Models:A SurveyJ.真实世界的语音真实世界的语音智能语音技术的下一个十年智能语音技术的下一个十年11面对真实世界的音频感知和生成问题:新语种、方言、口音、噪音、“鸡尾酒”场景、副语言信息、高表现力、
6、零样本有责任感有责任感的语音的语音包容的语音包容的语音价值对齐挑战:音频鉴伪、TTS/TTM/TTA的毒性检测、偏见性、公平性、可解释性无障碍技术帮助人类跨越数字鸿沟:下一代的语音翻译、老年人、低幼儿童、混合发音、构音障碍、非典型性语音、低资源语言保护、文化传承可评估的语音可评估的语音新的评估体系:逼近人类主观感受的语音、音频、音乐的质量预测,音频的推理能力、音频的情感表达能力3-5岁 低幼儿童数据集https:/ 3-5 5岁低幼儿童、汉语、对话式口语岁低幼儿童、汉语、对话式口语汉语状况全球状况家长引导式对话、发音自然、包含丰富的儿童特有的发音现象:元音/辅音混淆、声调错误、语速过快、连读、