当前位置:首页 > 报告详情

类 Sora 开源架构模型训练实践-卞正达.pdf

上传人: 张** 编号:181097 2024-09-27 35页 6.21MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
Open-Sora是一款开源的类似于OpenAI的Sora模型的视频生成模型,由潞晨科技的CTO卞正达领导开发。该模型能够民主化高效的视频制作,降低成本,并使所有人都能访问。Open-Sora的优势包括:降低了训练和推理成本,提高了视频制作的效率,支持多种应用场景,如游戏、虚拟现实、艺术创作、媒体制作等。Open-Sora的模型架构设计采用了DiT架构,并在训练和推理阶段都有所优化。该模型使用了预训练的VAE编码器进行视频数据压缩,并利用STDiT模型进行文本嵌入。Open-Sora的训练过程包括三个阶段:大规模图像预训练、大规模视频预训练和高质量视频数据微调。Open-Sora的数据预处理阶段通过自动生成的视频/文本对来提高效率。该模型还采用了Colossal-AI的训练策略,以最大化计算效率和最小化部署成本。Open-Sora的性能展示了一系列示例视频,证明了其生成高质量视频的能力。未来,Open-Sora计划整合光学流分析、美学评分评估、文本图像相似性度量等,并正在训练一个高质量的 video压缩网络。
"Open-Sora如何实现高效视频生成?" "如何利用Open-Sora进行游戏和虚拟现实开发?" "Open-Sora的未来计划有哪些创新点?"
客服
商务合作
小程序
服务号
折叠