《datafun2024-文生视频与应用实践-刘孟洋.pdf》由会员分享,可在线阅读,更多相关《datafun2024-文生视频与应用实践-刘孟洋.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20242024文生视频与应用实践文生视频与应用实践刘孟洋,腾讯,高级算法工程师快速发展的文生视频快速发展的文生视频主要难点主要难点应用实践应用实践未来展望未来展望目录目录DataFunSummitDataFunSummit#202420240101快速发展的文生视频快速发展的文生视频快速发展的文生视频快速发展的文生视频2022/H12022/H12022/H22022/H22023/Q12023/Q12023/Q22023/Q22023/Q32023/Q32023/Q42023/Q4202420242022/04 VDM2022/09 M
2、ake-A-Video2022/09 Make-A-Video2022/10 Imagen Video2022/11 MagicVideo2022/11 LVDM2023/02 Gen-12023/03 ModelScope2023/04 Video LDM2023/06 VideoComposer2023/06 Gen-22023/06 Gen-22023/06 PikaLab2023/06 PikaLab2023/08 MorphStudio2023/08 I2VGen-XL2023/09 Show-12023/09 LaVie2023/09 Genmo2023/10 MoonValley
3、2023/10 VideoCrafter12023/11 EMU2023/12 VideoPoet2023/12 VideoPoet2023/11 AnimateAnyone2023/11 AnimateAnyone2023/12 W.A.L.T2023/07 AnimateDiff2023/07 AnimateDiff2023/12 PikaLab 1.02023/12 PikaLab 1.02022/04 VDM2023/12 hunyuanPath in a tropical forest扩散模型扩散模型https:/lilianweng.github.io/posts/2021-07-
4、11-diffusion-models/#forward-diffusion-processDiffusion vs DecoderDiffusion vs DecoderFrom Image to videoFrom Image to videoAnimateDiffModelScopeDataFunSummitDataFunSummit#202420240202视频生成的主要难点视频生成的主要难点视频生成的三大核心困难视频生成的三大核心困难难点难点1 1:动作建模合理:动作建模合理难点难点2 2:语义对齐准确:语义对齐准确难点难点3 3:画质细节精美:画质细节精美数据层面:开源视文数据量小
5、(10M量级)模型层面:视频动作分布差异大,建模困难资源层面:高纬度计算复杂度高,训练低效数据层面:开源视文数据脏,噪声大,粒度粗;中文、中国元素缺少模型层面:CLIP文本语义表征能力有待增强数据层面:开源视文数据分辨率低、有水印模型层面:图片超分、传统视频超分都不适用动作不自然动作不自然画面不连贯画面不连贯动作不合理动作不合理画面静止画面静止画面质感差画面质感差画面细节糊画面细节糊人脸肢体畸形人脸肢体畸形超分闪动超分闪动数量数量(4 4只猫只猫)颜色颜色(黄色背景黄色背景)亚洲元素亚洲元素(包子包子)风格风格(油画风油画风)运动质量提升运动质量提升难点难点3 3:画面易突变问题:画面易突变问
6、题难点难点 2 2:动作难捕获问题:动作难捕获问题难点难点 1 1:空间与时间建模冲突:空间与时间建模冲突视视频频生生成成模模型型主主要要探探索索方方案案 设计空域-时域交替训练+多时域尺度训练方式,多维度提升short-term 及 long-term 时序建模能力 引入运动信息embedding,关联训练视频形态 设计空间引导注意力机制,从模型+Loss 双手段解决画面突变问题,更加关注在动作学习 设计初始化Noise,在infer时迭代式的保留低频信号,实现稳定画面生成 图像-视频联合训练 图像动态增广,构建平移,缩放等简单运动信息,在prompt