《卞正达-OPEN-SORA高效低成本视频生成模型.pdf》由会员分享,可在线阅读,更多相关《卞正达-OPEN-SORA高效低成本视频生成模型.pdf(59页珍藏版)》请在三个皮匠报告上搜索。
1、卞正达潞晨科技联合创始人、CTO卞正达师从新加坡国立大学尤洋教授,是全球超算领域的顶尖人才之一。他在高性能AI系统方面拥有7年的丰富经验,并作为核心开发者参与了Colossal-AI系统的研发。他曾在全球超算最顶尖的会议SC上发表过一作论文,展现了他在AI计算和系统优化领域的卓越能力。卞正达致力于推动高效能AI的技术进步,通过优化计算资源的使用来提升AI模型的训练和推理效率,在国际上具有深远影响。演讲主题:OPEN-SORA高效低成本视频生成模型卞正达潞晨科技CTOGitHub:https:/ 录Contents什么是Open-Sora?视频演示Meta使用6144卡训练30B模型,潞晨仅仅用
2、用256卡卡训训练练出高质量10B模型VideoOcean文生视频创创意意与与相相关关性性精精确确控控制制可可自自定定义义的的分分辨辨率率选选项项灵灵活活的的宽宽高高比比设设置置运运动动幅幅度度精精确确控控制制摄摄像像机机运运动动控控制制负负面面提提示示功功能能以以优优化化输输出出首首尾尾帧帧功功能能可可调调节节的的提提示示词词运运动动幅幅度度精精确确控控制制可可自自定定义义的的分分辨辨率率选选项项灵灵活活的的宽宽高高比比设设置置负负面面提提示示功功能能以以优优化化输输出出VideoOcean图生视频首首尾尾帧帧功功能能可可调调节节的的提提示示词词运运动动幅幅度度精精确确控控制制可可自自定定义
3、义的的分分辨辨率率选选项项灵灵活活的的宽宽高高比比设设置置负负面面提提示示功功能能以以优优化化输输出出VideoOcean角色一致性Open-Sora:首个开源的类 Sora视频生成模型用低成本、完全开源的Open-Sora方案将 OpenAI的 Sora模型引入社区:模型架构 训练好的模型Checkpoints 完整训练流程 数据预处理 视频演示和教程 旧金山早期投资者扎克库科夫(ZakKukoff)表示,以 5000万美元以下的成本制作一部电影成为可能 游戏和虚拟现实 艺术与创意探索 媒体制作 药物发现模拟 广告与营销 教育和培训视频生成模型应用与案例Open-Sora视频生成效果展示Op
4、en-Sora技术解析Open-Sora技术解析模型架构设计类Sora训练方案数据预处理Colossal-AI的高效训练策略STDiT模型结构示意图使用 STDiT 加速训练Open-Sora:模型架构 降低训练和推理成本STDiT在训练效率上超越 DiT,实现高达 5倍的加速。使用 DiT架构基于主流的 DiT框架,并使用强大的文本到图像模型 PixArt-作为模型的初始化。Open-Sora:训练流程模型训练步骤 训练阶段:利用预先训练的变分自动编码器(VAE)编码器进行视频数据压缩。使用潜在空间(Latent Space)中的文本嵌入来训练 STDiT 模型。推理阶段:从 VAE 的潜在
5、空间(Latent Space)中随机采样高斯噪声。输入噪声并提示嵌入到 STDiT 中进行去噪。将去噪后的特征传递到 VAE 解码器中以生成视频。Open-Sora:类Sora训练方案Open-Sora方案:成本控制在7万元以内 阶段一:大规模图像预训练;阶段二:大规模视频预训练;阶段三:高质量视频数据微调.阶段一:大规模图像预训练 高性价比的预训练大规模图像预训练最大限度地减少了开销。利用丰富的数据高质量的模型初始化降低了成本。使用Stable Diffusion策略没有可用的高质量时空 VAE。利用Stable Diffusion模型的空间 VAE;确保卓越的性能并降低总体成本。阶段二:
6、大规模视频预训练 多样化视频数据训练增强模型泛化能力 时间注意力模块提高模型对时间关系的理解 优化分辨率加速收敛并降低成本阶段三:高质量视频数据微调 提升视频质量通过微调显著提高视频生成质量。减少训练数据量第三阶段数据更小,但生成视频的持续时间、分辨率和质量更高。实现高效扩展能够生成从短到长、从低到高分辨率、从低保真到高保真度的视频。统一的图生视频/视频生视频框架用于支持图像和视频调节的掩码策略统一的图生视频/视频生视频框架掩码策略配置指南支持不同时长/分辨率/宽高比/帧率训练Open-Sora分桶策略数据挑战:Open-Sora数据集视频数据集图像数据集Panda-70MMidjourney