江益靓-0622DataFun分享-音频表征大模型.pdf

编号:169056 PDF 24页 7.52MB 下载积分:VIP专享
下载报告请您先登录!

江益靓-0622DataFun分享-音频表征大模型.pdf

1、DataFunSummit#2024音频表征大模型江益靓-腾讯音乐-天琴实验室 音频算法研究员01音频表征背景Audio Embedding的发展02通用音频表征发展发展与现状03表征模型应用业务应用:投放、推荐、搜索探索应用:音乐的终极理解目录CONTENTDataFunSummit#202401音频表征背景Audio Embedding的发展音频表征背景翻唱翻唱流派流派相似歌手相似歌手歌手、旋律、音色、流派、“品味”、偏好一个统计:分析偏好歌曲,对同一歌手占比5%,同一流派占比44%,同语种占比68%单一维度不够,希望音频表征模型提供更丰富稳定的音乐特征,不再是特征排列或简单地协同过滤特征

2、融合一个例子从音频角度分析“喜欢歌曲的理由”舒缓度舒缓度情绪情绪乐器乐器人声风格人声风格语种语种歌曲属性歌曲属性一个普通用户的QQ音乐“喜欢”列表音频表征背景过零率能量频谱频谱滚降频谱质心音频包络MFCConsetpitchnoteKeys和弦流派节奏情感旋律Low-LevelMid-LevelHigh-Level音频表征专家特征专家特征黑盒特征黑盒特征希望音频表征能表达普通人对于音乐的理解,而非对齐音乐专家定义音频表征背景通用音乐表征优势通用音乐表征优势n 内容表征丰富n 有助于下游任务快速迭代n 大量音频累积知识,更精准的模型效果测评验证:测评验证:n 通用表征测评任务n Sequence

3、 level:Tagging、Key、Emotionn Token level:Beat、Chords、Structuren 业务场景自建测评任务天琴实验室MIRLab能力腾讯音乐启明星https:/ S A,Singh M,Knox D,et al.Universality and diversity in human songJ.Science,2019,366(6468):eaax0868.2.Zhou C,Li Q,Li C,et al.A comprehensive survey on pretrained foundation models:A history from bert

4、to chatgptJ.arXiv arXiv:2302.09419,2023.PTM发展发展有监督/半监督学习无监督对比学习无监督AE方法2024 EnCodecMAE2023 AudioMAE2023 M2D2022 MAE-AST2022 MAE-JP2022 Map-Music2vec2022 MaskSpec2020 Audio2vector2023 MAST2023 CAT2022 PaSST2022 HTS-AT2022 EAT2021 AST2021 MTT2021 PSLA2019 Panns2018 CPC2018 SampleCNN2017 MusicCNN无监督跨模态方

5、法2024 AnyGPT2024 MU-LLaMA22023 LAION-CLAP2023 Qwen-Audio2023 MU-LLaMA2023 LLark2022 CLAP2023 ImageBind2023 SpeechGPT2022 MuLan2022 Wav2ClipSimCLR2023 ABT2022 MULE2022 SF-NFNet2022 MelCPC2021 CLMR2021 COLA2021 SSAST2020 DMMLBYOLMAEToken2023 DAC2023 Jukebox2023 HiFi-Codec2022 Encodec2021 SoundStreamUn

6、iversity of AmsterdamUniversity of Texas at Austin北大 浙大北大浙大2022 BYOL-A2022 ATST2023 music2vec西湖大学约翰开普勒林茨大学韩国科学技术研究所伦敦帝国学院业界研究调研整体趋势:自监督化、端到端化、跨模态化University of Sheffield CONICET-UBA2024 MusicFM2023 MERT2021 HuBERT2019-2020 Wav2Vec 1.0/2.0MLM无监督学习-simCLRsimCLR:self-supervised Contrastive LeaRning结合了S

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(江益靓-0622DataFun分享-音频表征大模型.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠