当前位置:首页 > 报告详情

快手端到端语音识别技术的探索与实践-李杰.pdf

上传人: 2*** 编号:127449 2023-05-01 39页 7.18MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了快手直播生态中AI语音技术的应用与研究,由资深语音算法专家李杰博士主讲。李杰博士在深度学习语音识别领域有深厚的研究基础,曾在国际顶会上发表论文十几篇。2016年加入微软亚洲互联网工程院,2017年底加入快手,负责快手语音识别组的技术研发和项目落地,四次获得公司研发线-技术突破奖。 本次报告主要聚焦在以下技术方向:直播间内容理解、声学事件检测、音频分离、语种识别、语音识别、直播智能剪辑、直播间内容生产、智能变声。其中,直播间内容理解包括游戏直播间的内容理解和秀场直播间的内容理解。声学事件检测包括游戏直播间和秀场直播间的声学事件检测。音频分离方面,首次提出多任务音频分离,并在萨里大学2018年GCRNN模型基础上提出FS-Transformer模型和EAD-Conformer模型。语种识别方面,提出动态多尺度卷积模型,并在2020年东方语言识别挑战赛中达到SOTA结果。语音识别方面,介绍了语音识别在直播场景中的应用,并三次技术方案升级,从TDNN-F混合框架到Fast-Conformer-CTC。直播智能剪辑方面,介绍了直播剪辑的方案和效果展示,包括才艺表演检测、音效检测、讲解检测、高能片段检测等。最后,介绍了智能变声技术,实现端上实时变声,并展示了变声效果。
"快手直播AI语音技术探秘" "直播生态中的AI语音创新应用" "智能变声技术如何改变直播体验"
客服
商务合作
小程序
服务号
折叠