1、通明湖人工智能开发与应用大会多模态大模型加速算法与开发实践ZOMI酱华为昇腾生态-技术首席01010202030304040505目录多模态大模型趋势与挑战MindSpeed-MM介绍应用案例趋势与挑战趋势与挑战1.1 多模态算力趋势1.2 多模态算法结构1.1 1.1 多模态趋势多模态趋势AIAI迭代持续带来爆点应用,多模态大模型将带动更多行业变革迭代持续带来爆点应用,多模态大模型将带动更多行业变革业界主要的视频生成模型:业界主要的视频生成模型:闭源闭源:Sora(OpenAI)、海螺AI(miniMax)、可灵(快手)、Pixverse(爱诗科技)、即梦(字节)、通义万相(阿里)、Runw
2、ay、Luma开源开源:清影(智谱)、OpenSoraPlan(北大)、OpenSora(潞晨)、Mochi、腾讯混元(hunyuanvideo)视频生成大模型催生新应用及新需求:视频生成大模型催生新应用及新需求:AI短剧,短视频进入“零基础创作”时代多模态数据推动算力、存储、网络迎来新一轮爆发1.1 1.1 多模态算力趋多模态算力趋势势大模型对集群算力需求快速增长大模型对集群算力需求快速增长EFLOPS-day:1EFLOPS(约3千张A100卡)集群运行1天所提供的算力OpenAIGoogleHuawei0.1110100100010000201820192020202120222023B
3、ERT T5LaMDAPaLMGLaMGPT GPT2 GPT4 PanGu-EFLOPS-days202420251000 Eflops-days1001000 Eflops-days10100 Eflops-daysPanGuGeminiGPT5 PanGu10728308379762.60.5?1000GPT3 20222024多模态模型参数持续增长多模态模型参数持续增长以Movie Gen 30B的模型为例,数据量:100M视频文本对和1B级图片文本对,集群规模:6144 H100多模态大模型已成为多模态大模型已成为AIAI算力消耗的新增点算力消耗的新增点1.2 1.2 多模态算法结构
4、多模态算法结构以扩散技术(以扩散技术(diffusiondiffusion)为主的多模态)为主的多模态生成模型生成模型以以LLM Next-Token PredictionLLM Next-Token Prediction为主的为主的多模态生成理解原生训练统一模型多模态生成理解原生训练统一模型多模态模型结构非常复杂,并且在快速持续创新和演进中多模态模型结构非常复杂,并且在快速持续创新和演进中例如:例如:视频生成SORA类、图像生成SD类例如:例如:Qwen2-VL系列、InternVL 2.0系列以以LLM+LLM+视觉编码器视觉编码器 +对齐层为主的多对齐层为主的多模态理解模型模态理解模型例
5、如:例如:EMU3、Janus技术趋于成熟技术趋于成熟技术尚不成熟1.2 1.2 多模态算法结构多模态算法结构以以LLM+DiffusionLLM+Diffusion为主的多模态生成理为主的多模态生成理解原生训练统一模型解原生训练统一模型覆盖图文音视频的全模态模型覆盖图文音视频的全模态模型多模态模型结构非常复杂,并且在快速持续创新和演进中多模态模型结构非常复杂,并且在快速持续创新和演进中例如:例如:JanusFlow、Transfusion技术尚不成熟技术尚不成熟例如:例如:推测1.3 1.3 加速算法及套件同步快速加速算法及套件同步快速发展发展充分挖掘算力价值成为热门研究课题,不断涌现的热门
6、技术集中于头部加速套件技术技术效果效果DPZeROZeRO(Microsoft).DP维度切分参数、梯度、优化器状态,减少内存开销CPRing Attention Ring Attention(Colossal AI).DP维度切分attention head,针对长序列场景大幅减少内存UlyssesUlysses(Microsoft).进一步优化Ring attention,减少内存的同时提高性能TPMegatron-TP Megatron-TP(NVIDIA).Transformer结构亲和的分布式矩阵乘,解决单卡不能训大模型的问题2D,2.5D,3D-TP 2D,2.5D,3D-TP(C