江益靓-0622DataFun分享-音频表征大模型.pdf-在线下载-三个皮匠报告

1、DataFunSummit#2024音频表征大模型江益靓-腾讯音乐-天琴实验室音频算法研究员01音频表征背景Audio Embedding的发展02通用音频表征发展发展与现状03表征模型应用业务应用：投放、推荐、搜索探索应用：音乐的终极理解目录CONTENTDataFunSummit#202401音频表征背景Audio Embedding的发展音频表征背景翻唱翻唱流派流派相似歌手相似歌手歌手、旋律、音色、流派、“品味”、偏好一个统计：分析偏好歌曲，对同一歌手占比5%，同一流派占比44%，同语种占比68%单一维度不够，希望音频表征模型提供更丰富稳定的音乐特征，不再是特征排列或简单地协同过滤特征

2、融合一个例子从音频角度分析“喜欢歌曲的理由”舒缓度舒缓度情绪情绪乐器乐器人声风格人声风格语种语种歌曲属性歌曲属性一个普通用户的QQ音乐“喜欢”列表音频表征背景过零率能量频谱频谱滚降频谱质心音频包络MFCConsetpitchnoteKeys和弦流派节奏情感旋律Low-LevelMid-LevelHigh-Level音频表征专家特征专家特征黑盒特征黑盒特征希望音频表征能表达普通人对于音乐的理解，而非对齐音乐专家定义音频表征背景通用音乐表征优势通用音乐表征优势n 内容表征丰富n 有助于下游任务快速迭代n 大量音频累积知识，更精准的模型效果测评验证：测评验证：n 通用表征测评任务n Sequence

3、 level：Tagging、Key、Emotionn Token level：Beat、Chords、Structuren 业务场景自建测评任务天琴实验室MIRLab能力腾讯音乐启明星https:/ S A,Singh M,Knox D,et al.Universality and diversity in human songJ.Science,2019,366(6468):eaax0868.2.Zhou C,Li Q,Li C,et al.A comprehensive survey on pretrained foundation models:A history from bert

4、to chatgptJ.arXiv arXiv:2302.09419,2023.PTM发展发展有监督/半监督学习无监督对比学习无监督AE方法2024 EnCodecMAE2023 AudioMAE2023 M2D2022 MAE-AST2022 MAE-JP2022 Map-Music2vec2022 MaskSpec2020 Audio2vector2023 MAST2023 CAT2022 PaSST2022 HTS-AT2022 EAT2021 AST2021 MTT2021 PSLA2019 Panns2018 CPC2018 SampleCNN2017 MusicCNN无监督跨模态方

5、法2024 AnyGPT2024 MU-LLaMA22023 LAION-CLAP2023 Qwen-Audio2023 MU-LLaMA2023 LLark2022 CLAP2023 ImageBind2023 SpeechGPT2022 MuLan2022 Wav2ClipSimCLR2023 ABT2022 MULE2022 SF-NFNet2022 MelCPC2021 CLMR2021 COLA2021 SSAST2020 DMMLBYOLMAEToken2023 DAC2023 Jukebox2023 HiFi-Codec2022 Encodec2021 SoundStreamUn

6、iversity of AmsterdamUniversity of Texas at Austin北大浙大北大浙大2022 BYOL-A2022 ATST2023 music2vec西湖大学约翰开普勒林茨大学韩国科学技术研究所伦敦帝国学院业界研究调研整体趋势：自监督化、端到端化、跨模态化University of Sheffield CONICET-UBA2024 MusicFM2023 MERT2021 HuBERT2019-2020 Wav2Vec 1.0/2.0MLM无监督学习-simCLRsimCLR：self-supervised Contrastive LeaRning结合了S