《段楠-视频生成基础模型进展、挑战和未来.pdf》由会员分享,可在线阅读,更多相关《段楠-视频生成基础模型进展、挑战和未来.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit段段楠楠 阶阶跃跃星星辰辰T Te ec ch h F Fe el ll lo oww阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理(2012年至2024年)。段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。他主要从事自然语
2、言处理、代码智能、多模态基础模型、智能体等研究。演演讲讲主主题题:视视频频生生成成基基础础模模型型进进展展、挑挑战战和和未未来来ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会视视频频生生成成基基础础模模型型进进展展、挑挑战战和和未未来来段楠2025-04-18ML-SummitML-Summit目目录录文生视频模型:Step-Video-T2V图生视频模型:Step-Video-TI2V挑战和未来ML-SummitML-SummitUser PromptDiT w/3D Full AttentionBilingual Text Encoder(s)Gauss
3、ian NoiseDenoised Latent FramesVideo-VAE EncoderLatent FramesVideo-DPOHuman Labeled ResultsML-SummitML-SummitML-SummitML-SummitSelf-Attention blockScale/ShiftQK-NormRoPE-3DScaleQK-NormCross-AttentionScale/ShiftFFNScaleUser PromptCLIP Text EncoderLLMTimestep AdaLN-SingleML-SummitML-SummitML-SummitML-
4、SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit人人工工评评测测集集:Step-Video-T2V-Eval128条人工手写prompts,覆盖运动、美食、美景、动物、节日、组合概念、超现实、人物、3D卡通、运镜、风格等11类。人人工工评评测测准准则则人人工工评评测测结结果果(6名名外外部部标标注注人人员员,独独立立盲盲测测对对比比Step-Video-T2V和和国国内内一一线线视视频频生生成成产产品品)1.Step-Video-T2V在复复杂杂运运动动生生成成、美美感感人人物物生生成成、视视觉觉想想象象能能力力、基基础础
5、文文字字生生成成和原原生生中中英英双双语语等维度具有state-of-the-art水平2.Step-Video-T2V在视视频频整整体体美美感感度度和和清清晰晰度度仍有提升空间,后续会持续整理加入高质量视频数据和采用视频超分模块3.包括Step-Video-T2V在内的所有视频生成模型均无无法法合合理理建建模模物物理理规规律律,后续会探索新型视频生成范式维维度度5 5分分评评分分标标准准4 4分分评评分分标标准准3 3分分评评分分标标准准2 2分分评评分分标标准准1 1分分评评分分标标准准指指令令遵遵循循视频与prompt完全一致,所有元素和细节都精确生成,复杂情景的表达无误。视频内容大致吻
6、合,但某些次要细节存在轻微偏差。视频基本符合prompt要求,但多个细节或核心内容偏差明显。视频与prompt明显不符,存在重要细节遗漏或整体偏差。视频与prompt完全不符,主要场景或主体完全错误。运运动动平平滑滑性性动作流畅自然,所有移动和过渡都自然。动作大体流畅,但某些场景中偶有轻微不自然的动作。动作存在轻微不自然或卡顿的现象,但不影响整体理解。动作不自然或不连贯,出现明显卡顿现象。动作非常不自然,频繁卡顿,难以理解。物物理理合合理理性性所有物体交互和运动符合现实物理定律,光影和碰撞效果精确,动作连贯。大部分物理表现合理,偶有轻微不自然的碰撞或光影,但不影响整体效果。多处物体运动、光影或