当前位置:首页 > 报告详情

datafun2024-文生视频与应用实践-刘孟洋.pdf

上传人: 张** 编号:158497 2024-03-31 18页 6.17MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了文生视频领域的快速发展和面临的挑战,以及相应的解决方案和应用实践。 关键数据: - 2022年至2023年间,文生视频领域快速发展,涌现出多种模型,如VDM、Make-A-Video、Imagen Video等。 - 2023年,文生视频领域迎来更多创新,如Video LDM、VideoComposer、PikaLab等。 主要难点: 1. 动作建模合理:由于视频动作分布差异大,建模困难。 2. 语义对齐准确:开源视文数据量小,且含有噪声,中文和中国元素缺少。 3. 画质细节精美:受限于数据质量和计算资源,生成的画面质感差,细节模糊。 解决方案: 1. 设计空域-时域交替训练和多时域尺度训练方式,提升时序建模能力。 2. 引入运动信息embedding,关联训练视频形态。 3. 设计空间引导注意力机制,解决画面突变问题,更关注动作学习。 4. 设计初始化Noise,实现稳定画面生成。 应用实践: 1. 视频风格化转换:用户输入视频,选择转换风格,生成对应风格的视频。 2. 人体姿态控制:用户输入参考图片并选择运动模板,模型自动补全空洞部分。 3. 视频运动笔刷:用户输入图片,选择主体,输入指令,实现主体跟随指令运动。 展望: 1. 视频压缩网络和潜在扩散变换。 2. 扩大视频生成模型的规模,构建通用物理世界模拟器。
文生视频技术挑战与解决方案 视频生成模型在应用实践中的创新 未来视频生成技术的不太长远的展望
客服
商务合作
小程序
服务号
折叠