【1】腾讯AI Lab音频与语音前端处理进展——罗艺.pdf

编号:129397 PDF 25页 2.52MB 下载积分:VIP专享
下载报告请您先登录!

【1】腾讯AI Lab音频与语音前端处理进展——罗艺.pdf

1、腾讯AI Lab音频与语音前端处理进展罗艺腾讯AI Lab高级研究员全流程优化:数据仿真、模型设计、目标任务音频与语音前端处理Tencent AI Lab数据仿真高效单通道/多通道房间混响仿真:难点:现有房间混响仿真工具均无法满足实时生成的速度要求,且生成的混响相对于真实房间混响存在差距方法:提出针对房间混响的快速随机近似方法(FRAM-RIR)1,2,3,绕过复杂的房间反射声源路径计算过程,采用带限制的采样模块进行快速近似效果:相对于现有房间混响仿真工具,CPU下生成速度快一个数量级且大幅提升仿真结果与真实房间混响的相似性1 Luo,Yi and Yu,Jianwei,“FRA-RIR:Fa

2、st Random Approximation of the Image-source Method.”,arXiv preprint arXiv:2208.04101(2022).2 Luo,Yi and Gu,Rongzhi,“Fast Random Approximation of Multi-channel Room Impulse Response.”,arXiv preprint arXiv:2304.08052(2023).3 https:/ method(ISM)方法一般假设空的矩形房间,而无法考虑房间内部的陈设对声源反射的影响,造成“sweeping echo effect”

3、传统ISM方法一般速度较慢,无法用于在线仿真,而预先离线生成足量仿真数据又需要占用大量存储空间,且数据丰富度受限方案:绕过传统ISM方法中显式进行反射声源路径计算的步骤,使用有约束的随机采样来生成反射路径,同时模拟房间内有不同类型陈设的情况与不规则房间形状的情况FRAM-RIRISM:=10 00+=0 0直达声+所有反射声,其中为反射次数,为总传播距离FRAM-RIR:随机采样与,避免直接计算初始:给定麦克风坐标与声源坐标,计算每个麦克风的直达声随机采样反射声:(1)随机采样一个空间位置距离:相对直达声距离的比值角度:随机(2)计算该位置与所有麦克风位置之间的距离(3)基于当前距离,随机采样

4、反射次数 采样过程对所有反射声而言可以完全并行计算 :同样可以完全并行FRAM-RIR生成速度:FRAM-RIRRIR质量:FRAM-RIR模型训练性能:降噪+分离FRAM-RIR模型训练性能:降噪+分离+去混响模型设计高采样率音频前端处理:难点:音乐、语音、环境声等高采样率音频频带特性复杂,难以有效建模方法:提出细粒度频带切分与交互网络(band-split RNN,BSRNN)、半监督数据增强模块、全采样率处理模块 1-4效果:音乐分离、语音增强等基准测试集均达到SOTA,SDX Challenge 2023电影音效分离比赛第一,DNS 2023语音增强比赛第三1 Luo,Yi,and J

5、ianwei Yu.Music Source Separation with Band-split RNN.IEEE/ACM Transactions on Audio,Speech,and Language Processing(2023).2 Yu,Jianwei,et al.High Fidelity Speech Enhancement with Band-split RNN.arXiv preprint arXiv:2212.00406(2022).3 Yu,Jianwei,and Yi Luo.Efficient Monaural Speech Enhancement with U

6、niversal Sample Rate Band-Split RNN.ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2023.4 Yu,Jianwei,et al.TSpeech-AI System Description to the 5th Deep Noise Suppression(DNS)Challenge.ICASSP 2023-2023 IEEE International Conf

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【1】腾讯AI Lab音频与语音前端处理进展——罗艺.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠