datafun2024-文生视频与应用实践-刘孟洋.pdf

编号:158497 PDF 18页 6.17MB 下载积分:VIP专享
下载报告请您先登录!

datafun2024-文生视频与应用实践-刘孟洋.pdf

1、DataFunSummitDataFunSummit#20242024文生视频与应用实践文生视频与应用实践刘孟洋,腾讯,高级算法工程师快速发展的文生视频快速发展的文生视频主要难点主要难点应用实践应用实践未来展望未来展望目录目录DataFunSummitDataFunSummit#202420240101快速发展的文生视频快速发展的文生视频快速发展的文生视频快速发展的文生视频2022/H12022/H12022/H22022/H22023/Q12023/Q12023/Q22023/Q22023/Q32023/Q32023/Q42023/Q4202420242022/04 VDM2022/09 M

2、ake-A-Video2022/09 Make-A-Video2022/10 Imagen Video2022/11 MagicVideo2022/11 LVDM2023/02 Gen-12023/03 ModelScope2023/04 Video LDM2023/06 VideoComposer2023/06 Gen-22023/06 Gen-22023/06 PikaLab2023/06 PikaLab2023/08 MorphStudio2023/08 I2VGen-XL2023/09 Show-12023/09 LaVie2023/09 Genmo2023/10 MoonValley

3、2023/10 VideoCrafter12023/11 EMU2023/12 VideoPoet2023/12 VideoPoet2023/11 AnimateAnyone2023/11 AnimateAnyone2023/12 W.A.L.T2023/07 AnimateDiff2023/07 AnimateDiff2023/12 PikaLab 1.02023/12 PikaLab 1.02022/04 VDM2023/12 hunyuanPath in a tropical forest扩散模型扩散模型https:/lilianweng.github.io/posts/2021-07-

4、11-diffusion-models/#forward-diffusion-processDiffusion vs DecoderDiffusion vs DecoderFrom Image to videoFrom Image to videoAnimateDiffModelScopeDataFunSummitDataFunSummit#202420240202视频生成的主要难点视频生成的主要难点视频生成的三大核心困难视频生成的三大核心困难难点难点1 1:动作建模合理:动作建模合理难点难点2 2:语义对齐准确:语义对齐准确难点难点3 3:画质细节精美:画质细节精美数据层面:开源视文数据量小

5、(10M量级)模型层面:视频动作分布差异大,建模困难资源层面:高纬度计算复杂度高,训练低效数据层面:开源视文数据脏,噪声大,粒度粗;中文、中国元素缺少模型层面:CLIP文本语义表征能力有待增强数据层面:开源视文数据分辨率低、有水印模型层面:图片超分、传统视频超分都不适用动作不自然动作不自然画面不连贯画面不连贯动作不合理动作不合理画面静止画面静止画面质感差画面质感差画面细节糊画面细节糊人脸肢体畸形人脸肢体畸形超分闪动超分闪动数量数量(4 4只猫只猫)颜色颜色(黄色背景黄色背景)亚洲元素亚洲元素(包子包子)风格风格(油画风油画风)运动质量提升运动质量提升难点难点3 3:画面易突变问题:画面易突变问

6、题难点难点 2 2:动作难捕获问题:动作难捕获问题难点难点 1 1:空间与时间建模冲突:空间与时间建模冲突视视频频生生成成模模型型主主要要探探索索方方案案 设计空域-时域交替训练+多时域尺度训练方式,多维度提升short-term 及 long-term 时序建模能力 引入运动信息embedding,关联训练视频形态 设计空间引导注意力机制,从模型+Loss 双手段解决画面突变问题,更加关注在动作学习 设计初始化Noise,在infer时迭代式的保留低频信号,实现稳定画面生成 图像-视频联合训练 图像动态增广,构建平移,缩放等简单运动信息,在prompt

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(datafun2024-文生视频与应用实践-刘孟洋.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠