【1】腾讯AI Lab音频与语音前端处理进展—

1、腾讯AI Lab音频与语音前端处理进展罗艺腾讯AI Lab高级研究员全流程优化：数据仿真、模型设计、目标任务音频与语音前端处理Tencent AI Lab数据仿真高效单通道/多通道房间混响仿真：难点：现有房间混响仿真工具均无法满足实时生成的速度要求，且生成的混响相对于真实房间混响存在差距方法：提出针对房间混响的快速随机近似方法（FRAM-RIR）1,2,3，绕过复杂的房间反射声源路径计算过程，采用带限制的采样模块进行快速近似效果：相对于现有房间混响仿真工具，CPU下生成速度快一个数量级且大幅提升仿真结果与真实房间混响的相似性1 Luo,Yi and Yu,Jianwei,“FRA-RIR:Fa

2、st Random Approximation of the Image-source Method.”,arXiv preprint arXiv:2208.04101(2022).2 Luo,Yi and Gu,Rongzhi,“Fast Random Approximation of Multi-channel Room Impulse Response.”,arXiv preprint arXiv:2304.08052(2023).3 https:/ method(ISM)方法一般假设空的矩形房间，而无法考虑房间内部的陈设对声源反射的影响，造成“sweeping echo effect”

3、传统ISM方法一般速度较慢，无法用于在线仿真，而预先离线生成足量仿真数据又需要占用大量存储空间，且数据丰富度受限方案：绕过传统ISM方法中显式进行反射声源路径计算的步骤，使用有约束的随机采样来生成反射路径，同时模拟房间内有不同类型陈设的情况与不规则房间形状的情况FRAM-RIRISM:=10 00+=0 0直达声+所有反射声，其中为反射次数，为总传播距离FRAM-RIR：随机采样与，避免直接计算初始：给定麦克风坐标与声源坐标，计算每个麦克风的直达声随机采样反射声：（1）随机采样一个空间位置距离：相对直达声距离的比值角度：随机（2）计算该位置与所有麦克风位置之间的距离（3）基于当前距离，随机采样

4、反射次数采样过程对所有反射声而言可以完全并行计算：同样可以完全并行FRAM-RIR生成速度：FRAM-RIRRIR质量：FRAM-RIR模型训练性能：降噪+分离FRAM-RIR模型训练性能：降噪+分离+去混响模型设计高采样率音频前端处理：难点：音乐、语音、环境声等高采样率音频频带特性复杂，难以有效建模方法：提出细粒度频带切分与交互网络（band-split RNN,BSRNN）、半监督数据增强模块、全采样率处理模块 1-4效果：音乐分离、语音增强等基准测试集均达到SOTA，SDX Challenge 2023电影音效分离比赛第一，DNS 2023语音增强比赛第三1 Luo,Yi,and J

5、ianwei Yu.Music Source Separation with Band-split RNN.IEEE/ACM Transactions on Audio,Speech,and Language Processing(2023).2 Yu,Jianwei,et al.High Fidelity Speech Enhancement with Band-split RNN.arXiv preprint arXiv:2212.00406(2022).3 Yu,Jianwei,and Yi Luo.Efficient Monaural Speech Enhancement with U

6、niversal Sample Rate Band-Split RNN.ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2023.4 Yu,Jianwei,et al.TSpeech-AI System Description to the 5th Deep Noise Suppression(DNS)Challenge.ICASSP 2023-2023 IEEE International Conf

【1】腾讯AI Lab音频与语音前端处理进展——罗艺.pdf

相关报告