人工智能行业AI模型系列报告：从世界模型看算力需求变化-240321-三个皮匠报告

1、敬请参阅最后一页特别声明 1 核心观点 SoraSora 是第一个表现出是第一个表现出涌现涌现能力的视频生成模型能力的视频生成模型：随着模型规模增大而出现“理解世界”的能力：随着模型规模增大而出现“理解世界”的能力。虽然许多 LLM，如 ChatGPT 和 GPT-4，表现出涌现能力，但在 Sora 出现之前，展示类似能力的视觉模型一直很少。根据 Sora 的技术报告，它是第一个表现出确认的涌现能力的视觉模型，标志着计算机视觉领域的一个重要里程碑。SoraSora 的成功源于的成功源于 Diffusion TransformerDiffusion Transformer 架构的引入，和过去

2、多年高质量数据的积累。架构的引入，和过去多年高质量数据的积累。从架构上看，从架构上看，视频生成模型的技术路线开始收敛，视频生成模型的技术路线开始收敛，SoraSora 的的 Diffusion TransformerDiffusion Transformer 架构证实了有效架构证实了有效 scalescale-upup 也即是也即是增加算力能够对提升视频生成的精细度和效果，是视频生成领域的增加算力能够对提升视频生成的精细度和效果，是视频生成领域的GPTGPT-3 3 时刻时刻。类似于 GPT-3 证明了更大的训练量、模型参数量、Token 数量，训练效果越好。引入了 Transformer 的

3、 Sora 也表现出了同样的趋势，OpenAI 进行了 32x训练量和 1x、4x 训练量的对比，从结果上看，32x 训练量的生成效果远远强于 1x 和 4x 的生成效果。在 Sora 发布后Google、Snap 也发布了采用类似技术的视频生成模型，确定了 Diffusion Transformer 的视频生成路线，并且算力的需求会大大提升。从数据上看，从数据上看，高质量的数据对视频生成模型的训练至关重要，高质量的数据对视频生成模型的训练至关重要，SoraSora 利用自有工具增强训练数据集与提示工程。利用自有工具增强训练数据集与提示工程。OpenAI训练了专用的视频字幕模型来为视频生成详细

4、描述，生成高质量的视频-字幕对，用于微调 Sora 以提高其指令跟随能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致，Sora 执行了一个额外的提示扩展步骤，即调用 GPT-4V 模型将用户输入扩展到详细的描述性提示。我们认为，随着我们认为，随着 Diffusion TransformerDiffusion Transformer 类模型大量应用于图像及视频生成类模型大量应用于图像及视频生成，推理需求推理需求将大幅增加，将大幅增加，与与 LLMLLM 推理推理更需更需要内存带宽要内存带宽的资源需求的资源需求不同，视觉模型推理将对芯片本身算力和内存容量提出更高要求不同，视觉模型

5、推理将对芯片本身算力和内存容量提出更高要求。Sora 的 DiT 和大语言模型在推理时的逻辑不同，Diffusion 需要约 20 Steps 优化过程，每次均是计算的完整的 patch，访存需求也会大大下降，从 LLM 推理的访存密集型场景转变成算力密集型场景。SoraSora 高质量的视频生成对影视和游戏行业的影响是最直接而深远的，降低制作门槛并且很有可能重塑影视和游戏制高质量的视频生成对影视和游戏行业的影响是最直接而深远的，降低制作门槛并且很有可能重塑影视和游戏制作的流程与格局。作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响，前期可以替代掉分镜以及概念片制作，后期可以

6、取代部分特效制作。对于游戏行业，游戏开发人员可能会使用它来生成自定义的视觉效果，甚至是从玩家叙述中生成角色动作。风险提示模型架构的大幅改变影响算力需求分布算力速度发展不及预期中美科技领域政策恶化行业深度研究敬请参阅最后一页特别声明 2 内容目录内容目录一、Sora 模型的特点.4 1.1 Sora 在生成视频的质量、灵活性和时长上与之前的模型有代际差距.4 二、视频生成模型的历史与现状.5 2.1 文生视频是个年轻的方向，最早能追溯到 15 年的基于 GAN 生成模型.5 2.2 GAN 和 VAE 时代.6 2.3 Transformer Based.6 2.4 Diffusio

人工智能行业AI模型系列报告：从世界模型看算力需求变化-240321（20页）.pdf

相关报告