当前位置:首页 > 报告详情

江益靓-0622DataFun分享-音频表征大模型.pdf

上传人: 张** 编号:169056 2024-07-06 24页 7.52MB

1、DataFunSummit#2024音频表征大模型江益靓-腾讯音乐-天琴实验室 音频算法研究员01音频表征背景Audio Embedding的发展02通用音频表征发展发展与现状03表征模型应用业务应用:投放、推荐、搜索探索应用:音乐的终极理解目录CONTENTDataFunSummit#202401音频表征背景Audio Embedding的发展音频表征背景翻唱翻唱流派流派相似歌手相似歌手歌手、旋律、音色、流派、“品味”、偏好一个统计:分析偏好歌曲,对同一歌手占比5%,同一流派占比44%,同语种占比68%单一维度不够,希望音频表征模型提供更丰富稳定的音乐特征,不再是特征排列或简单地协同过滤特征

2、融合一个例子从音频角度分析“喜欢歌曲的理由”舒缓度舒缓度情绪情绪乐器乐器人声风格人声风格语种语种歌曲属性歌曲属性一个普通用户的QQ音乐“喜欢”列表音频表征背景过零率能量频谱频谱滚降频谱质心音频包络MFCConsetpitchnoteKeys和弦流派节奏情感旋律Low-LevelMid-LevelHigh-Level音频表征专家特征专家特征黑盒特征黑盒特征希望音频表征能表达普通人对于音乐的理解,而非对齐音乐专家定义音频表征背景通用音乐表征优势通用音乐表征优势n 内容表征丰富n 有助于下游任务快速迭代n 大量音频累积知识,更精准的模型效果测评验证:测评验证:n 通用表征测评任务n Sequence

3、 level:Tagging、Key、Emotionn Token level:Beat、Chords、Structuren 业务场景自建测评任务天琴实验室MIRLab能力腾讯音乐启明星https:/ S A,Singh M,Knox D,et al.Universality and diversity in human songJ.Science,2019,366(6468):eaax0868.2.Zhou C,Li Q,Li C,et al.A comprehensive survey on pretrained foundation models:A history from bert

4、to chatgptJ.arXiv arXiv:2302.09419,2023.PTM发展发展有监督/半监督学习无监督对比学习无监督AE方法2024 EnCodecMAE2023 AudioMAE2023 M2D2022 MAE-AST2022 MAE-JP2022 Map-Music2vec2022 MaskSpec2020 Audio2vector2023 MAST2023 CAT2022 PaSST2022 HTS-AT2022 EAT2021 AST2021 MTT2021 PSLA2019 Panns2018 CPC2018 SampleCNN2017 MusicCNN无监督跨模态方

5、法2024 AnyGPT2024 MU-LLaMA22023 LAION-CLAP2023 Qwen-Audio2023 MU-LLaMA2023 LLark2022 CLAP2023 ImageBind2023 SpeechGPT2022 MuLan2022 Wav2ClipSimCLR2023 ABT2022 MULE2022 SF-NFNet2022 MelCPC2021 CLMR2021 COLA2021 SSAST2020 DMMLBYOLMAEToken2023 DAC2023 Jukebox2023 HiFi-Codec2022 Encodec2021 SoundStreamUn

6、iversity of AmsterdamUniversity of Texas at Austin北大 浙大北大浙大2022 BYOL-A2022 ATST2023 music2vec西湖大学约翰开普勒林茨大学韩国科学技术研究所伦敦帝国学院业界研究调研整体趋势:自监督化、端到端化、跨模态化University of Sheffield CONICET-UBA2024 MusicFM2023 MERT2021 HuBERT2019-2020 Wav2Vec 1.0/2.0MLM无监督学习-simCLRsimCLR:self-supervised Contrastive LeaRning结合了S

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了音频表征的发展及其在音乐理解中的应用。音频表征的发展包括音频嵌入的背景、通用音频嵌入的发展与现状、以及表征模型的应用。其中,通用音频嵌入的发展涵盖了多种模型,如PTM、EnCodec、MAE等,以及它们在音乐理解中的应用。表征模型的应用包括音频表征搜索业务排序等。此外,文章还提到了无监督学习在音频表征中的应用,如simCLR、BYOL、MAE等,以及它们在音乐生成任务和多尺度VQ-VAE编成等方面的优势。最后,文章讨论了音频表征在音乐理解方面的挑战和发展方向。
"音频表征如何影响音乐搜索?" "如何利用无监督学习进行音频表征?" "音频表征在音乐推荐中的实际应用是什么?"
客服
商务合作
小程序
服务号
折叠