1、快手快手直播生态中的直播生态中的AIAI语音技术语音技术李杰 博士快手资深语音算法专家2021.11李杰,李杰,博士,快手资深语音识别算法专家。研究方向为基于深度学习的语音识别,在语音领域国际顶会上,包括ICASSP、INTERSPEECH、ASRU等,发表论文十几篇。2016年加入微软(亚洲)互联网工程院,担任语音技术研究员。2017年底加入快手,目前负责快手语音识别组的技术研发和项目落地,四次获得公司研发线-技术突破奖。演讲人介绍演讲人介绍快手快手-国民短视频及直播社区国民短视频及直播社区流量内容粘性3.2043.204亿亿日活用户5.7295.729亿亿月活用户1.81.8亿亿+海外月活
2、用户百百亿量级亿量级短视频库存100min+100min+日均使用时长140140亿亿+对人互相关注渗透率渗透率78%78%直播日活渗透率AIAI语音与直播生态语音与直播生态直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离语种识别语音识别直播智能剪辑直播间直播间内容生产内容生产智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音识别直播智能剪辑直播智能剪辑文本文本精彩片段精彩片段音频事件检测音频事件检测游戏直播间:游戏直播间:检测特定音效的起止时间持续时间很短
3、秀场直播间:秀场直播间:检测语音、伴奏、唱歌的起止时间音频事件检测模型改进音频事件检测模型改进萨里大学萨里大学20182018年年GCRNNGCRNN模型:模型:2017年DCASE比赛第一名快手线上测试集音乐起止点检测任务,F1值84.4%FBankFeature Feature SelectionSelection音频分类事件检测Transformer Transformer EncoderEncoderTokenToken提出提出FS-TransformerFS-Transformer模型:模型:改进1:GCNN-Feature Selection模块改进2:RNN-Transforme
4、r编码器F1值92.3%,+7.9pp自研自研FS-TransformerFS-Transformer模型:模型:音频事件检测效果展示音频事件检测效果展示游戏直播间:游戏直播间:视频左侧展示游戏特效起止时间秀场直播间:秀场直播间:视频左上角展示语音、伴奏、唱歌起止时间直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离音频分离语种识别语音识别直播智能剪辑直播间直播间内容生产内容生产智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音识别直播智能剪辑直播智能剪辑文本
5、文本精彩片段精彩片段首次提出多任务音频分离首次提出多任务音频分离单任务单任务音频分离音频分离语音增强:从含噪语音中恢复高质量语音语音分离:分离多个说话人声音音乐分离:对音乐分离出人声以及不同乐器歌唱人声分离:分离唱歌的人声和伴奏多任务多任务音频分离音频分离首次提出首次提出MTASSMTASS任务任务MTASSMTASS:Multi-Task Audio Source Separation单系统输出三个音轨:语音、音乐和噪音语音:正常的人说话的声音音乐:唱歌人声(清唱)、伴奏以及两者的组合噪音:以上两种之外的背景声,包含特效音公开MTASS数据集自研多任务音频分离模型:自研多任务音频分离模型:C
6、omplex-MTASSNetComplex-MTASSNet多任务音频分离数据集:多任务音频分离数据集:已公开多任务音频分离模型多任务音频分离模型Complex-Complex-MTASSNetMTASSNet:ASRU 2021已公开和主流音频分离模型效果对比Complex-MTASSNet结构自研多任务音频分离模型:自研多任务音频分离模型:EAD-ConformerEAD-ConformerEAD-ConformerEAD-Conformer超越多种模型超越多种模型MTASSMTASS任务任务SOTASOTA结果结果投稿 ICASSP 2022和主流音频分离模型效果和效率对比EAD-Co