1、演讲人:高欢010203040506多种多样的AIGCAIGC背后的多模态理解如何提升多模态理解能力多模态理解如何赋能AIGC展望01多种多样的AIGC02AIGC的多模态理解DiT TrainingDiT Inference多模态信息注入Caption及数据准备训练效果分析验证多模态信息输入效果分析模型训练模型推理VideoChat-Flash,https:/arxiv.org/pdf/2501.00574Qwen2-VL,https:/arxiv.org/pdf/2409.12191Mavors,https:/arxiv.org/pdf/2504.10068MM-DiT,https:/ar
2、xiv.org/pdf/2403.03206Wan,https:/arxiv.org/pdf/2503.20314I2V-Adapter,https:/arxiv.org/pdf/2312.16693Step1X-Edit,https:/arxiv.org/pdf/2504.17761v2MetaQueries,https:/arxiv.org/pdf/2504.06256ID保持风格保持抽取信息+参考增加文本推理长度+参考Any2Caption,https:/arxiv.org/pdf/2503.24379VPO,https:/arxiv.org/pdf/2503.2049103多模态理解能
3、力提升好的模型选型高质量的训练数据优秀的AIGC多模态理解模型有指导力的评测体系Vript,https:/arxiv.org/pdf/2406.06040MiraData,https:/arxiv.org/pdf/2407.06358DropletVideo,https:/arxiv.org/pdf/2503.06053VBench,https:/arxiv.org/pdf/2311.17982TimeChat-Online,https:/arxiv.org/pdf/2504.17343AuroraCap,https:/arxiv.org/pdf/2410.03051Favor-Bench,h
4、ttps:/arxiv.org/pdf/2503.14935CameraBench,https:/arxiv.org/pdf/2504.15376CAPability,https:/arxiv.org/pdf/2502.14914DREAM-1K,https:/arxiv.org/pdf/2407.0063404多模态理解赋能AIGCSkyReels-V2,https:/arxiv.org/pdf/2504.13074MoCha,https:/arxiv.org/pdf/2503.23307MovieAgent,https:/arxiv.org/pdf/2503.0731405展望刷分垂类/专
5、项长上下文深度推理Agent刷榜动漫/运镜/长视频生成?LLM发展路径视频生成发展路径陪伴、代码、数学、论文助读、RAG、R1、LongCoT、Manus、BrowseComp、目标导向生成画面质量优化语义理解提升风格化和特色概念精确文字生成专用生成画面质量优化语义响应提升电影级片段生成?文生图发展路径视频生成发展路径理解生成一体化?Stable diffusionDiffusion Transformer高质量专用数据高质量专用数据+Unify modelCharacter.aiAI男友,电影梦境数字人多种多样的AIGC可灵的产品矩阵,不断提升可控性和增加新玩法AIGC多模态理解对视频进行精准的理解和转述,是多模态理解赋能AIGC的最重要途径AI多模态理解能力提升桥接灵感与画面的文字媒介,需要从数据组织、模型设计、评测监督等多个方面严格把控多模态理解赋能AIGC重现甚至超越LLM一路走来的辉煌,让每个灵感都带上色彩探索 AI 应用边界Explore the limitsof AI applications