《01 段楠-Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望.pdf》由会员分享,可在线阅读,更多相关《01 段楠-Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、段楠阶跃星辰2025-04-10Outline Step-Video-T2V Step-Video-TI2VStep-Video-T2V(30B)User PromptDiT w/3D Full AttentionBilingual Text Encoder(s)Gaussian NoiseDenoised Latent FramesVideo-VAE EncoderLatent FramesVideo-DPOHuman Labeled ResultsStep-Video-T2V:Video-VAEStep-Video-T2V:DiTSelf-AttentionblockScale/Shift
2、QK-NormRoPE-3DScaleQK-NormCross-AttentionScale/ShiftFFNScaleUser PromptCLIP Text EncoderLLMTimestep AdaLN-SingleStep-Video-T2V:Video-DPOStep-Video-T2V:System OptimizationStep-Video-T2V:DataStep-Video-T2V:Pre-trainingStep-Video-T2V:Evaluation人工评测集:Step-Video-T2V-Eval128条人工手写prompts,覆盖运动、美食、美景、动物、节日、组
3、合概念、超现实、人物、3D卡通、运镜、风格等11类。人工评测准则人工评测结果(6名外部标注人员,独立盲测对比Step-Video-T2V和国内一线视频生成产品)1.Step-Video-T2V在复杂运动生成、美感人物生成、视觉想象能力、基础文字生成和原生中英双语等维度具有state-of-the-art水平2.Step-Video-T2V在视频整体美感度和清晰度仍有提升空间,后续会持续整理加入高质量视频数据和采用视频超分模块3.包括Step-Video-T2V在内的所有视频生成模型均无法合理建模物理规律,后续会探索新型视频生成范式维度5分评分标准4分评分标准3分评分标准2分评分标准1分评分标准
4、指令遵循视频与prompt完全一致,所有元素和细节都精确生成,复杂情景的表达无误。视频内容大致吻合,但某些次要细节存在轻微偏差。视频基本符合prompt要求,但多个细节或核心内容偏差明显。视频与prompt明显不符,存在重要细节遗漏或整体偏差。视频与prompt完全不符,主要场景或主体完全错误。运动平滑性动作流畅自然,所有移动和过渡都自然。动作大体流畅,但某些场景中偶有轻微不自然的动作。动作存在轻微不自然或卡顿的现象,但不影响整体理解。动作不自然或不连贯,出现明显卡顿现象。动作非常不自然,频繁卡顿,难以理解。物理合理性所有物体交互和运动符合现实物理定律,光影和碰撞效果精确,动作连贯。大部分物理
5、表现合理,偶有轻微不自然的碰撞或光影,但不影响整体效果。多处物体运动、光影或交互与物理逻辑不符,但主要动作仍有一定连贯性。物理表现不合理,光影或物体交互违背物理定律,场景显得不自然。物理表现完全错误,物体交互或光影严重失真,导致场景难以理解。美感度极具吸引力,能够深深打动观众,具有高度的艺术价值和观赏性。令人愉悦,能够吸引观众的注意力,具有较高的观赏价值。有一定吸引力,但整体表现平平,未能留下深刻印象。一般,缺乏吸引力,可能会导致观众失去兴趣。令人不快,缺乏吸引力,整体效果让人失望。Step-Video-T2V:Result复杂运动生成美感人物生成林黛玉身穿汉服,正坐在梳妆台前整理妆容一位女性
6、在录音棚内对着麦克风,头戴耳机,自弹自唱。她穿着卡其色吊带和黑色长裙,脖子上戴着黑色颈圈。吉他是深棕色的,琴弦是浅绿色的。背景是砖墙和部分木墙,光线从右侧窗户照射进来。镜头从平视拍摄开始,聚焦于女性和她手中的吉他。她眼神专注,面带微笑,手指灵活地拨动琴弦,同时轻声哼唱。随着歌曲的进行,镜头逐渐拉近,变焦到吉他部分,突出了她熟练的演奏技巧。视觉想象能力小黄人坐在闪电麦昆身上,闪电麦昆在北京的马路上快速行驶站在方形石台上的一个古希腊雕像突然活了过来,她走下石台,向着周围的观众招手,大家纷纷拿出手机来拍摄,镜头从远拉近给到雕像头部的特写基础文字生成一名宇航员在月球上发现一块石碑,上面印有“stepf