1、大模型在超大规模集群大模型在超大规模集群性能提升实践性能提升实践演讲人:ZOMI 酱目 录01大规模集群发展02集群组网优化03多模态性能优化04小红书案例01我没有副标题哦大规模集群发展算力 Scaling Law:万卡集群成为新的军备门槛Meta基于1.6万H100集群训练 LLAMA43.1,6K H100 训练 Movie GenXAI 基于2.4万H100集群训练,自建10万H100集群训练Grok-35K10K20K100K20242025LLaMA31.6万卡 H100Nemotron 340B0.6万卡 H100OpenAI10万卡 H100Grok-22.4万卡 H100Gr
2、ok-310万卡 H1002023训练完训练中建设中?10万GB100LLaMA4?10万卡 H100Claude31.8万卡 H1001万卡 H100集群成为标配10万卡 H100集群逐步成为主流算力 Scaling Law:万卡集群成为新的军备门槛Meta基于1.6万H100集群训练 LLAMA43.1,6K H100 训练 Movie GenXAI 基于2.4万H100集群训练,自建10万H100集群训练Grok-3MFU、集群可用率是集群性能重要指标公司训练任务集群规模(N)利用率(MFU)可用率(A)MetaLLaMA31.6万H10040%99%NVNemotron 340B0.6
3、万H10041.9%96%LLaMA3-8B15万亿Tokens3daysLLaMA3-70B15万亿Tokens21daysLLaMA3-405B*15万亿Tokens54daysLLaMA3 性能=N*MFU*A*LLaMA3-405B,模型效果测试10/13超过GPT-4o,MMLU 全部4项指标超GPT-4o;算力成为提升模型效果,追赶OpenAI的核心驱动力用户角度看AI集群1.生态、生态:NVIDIA+PyTorch 天然护城河2.需求、需求:当前大模型LLM训练场景驱动AI集群1.贵,贵,贵:更快的芯片、更大的网络都导致成本激增2.稳,稳,稳:计算错误、ECC错误、网络闪断、板卡
4、/元器件失效,影响AI集群稳定性3.慢、慢、慢:集群拉起、集群运行都非常耗时,即使直接下发任务仍然需要等待通信AI集群当前的通用问题1.登纳德缩比和摩尔定律失效:计算芯片、网络增速远落后于 AI 计算量和参数量 10 x/years 靠堆量勉强满足 Scaling Law 需求2.芯片层级颠覆性技术:片上 SRAM、片内 HBM IO、光罩面积限制、System on Wafer(SoW)跨节点互联、硅光互联、光交换(224G Serdes 逼近物理极限)Scale up/Scale out、进存和计存之争3.能效指标约束:新建智算超算能耗逼近100MW 自然冷源、风冷、液冷机房工作人员、系统
5、维护人员国内外相关AI集群1.阿里云:阿里云AI基础设施全面升级,模型算力利用率提升超20%2.腾讯元:腾讯星脉网络2.0构筑10万卡高性能AI计算集群3.火山云:火山引擎发布大模型训练云平台支持万卡训练4.百度百舸:面向10万卡算力集群升级计算平台能力5.Google TPU:Google Cloud 第6 代TPU 快4.7 倍超級電腦架構訓練AI 模型6.Amazon AWS:亚马逊云科技瞄准生成式AI,再造云计算新格局7.META:Meta Will Soon Get a 100000 GPU Cluster Too8.华为云:.9.昇腾:.AI 集群的性能影响因素单芯片算力集群规模算
6、力效率集群总算力可用率=xxx负载均衡(NSLB)集合通信多路聚合MC2 提高掩盖比例算子性能提升:XX%集群线性度:XX%XX%集群算力利用率:XX%XX%通算融合算子多加速器并行内存碎片自适应调度多维并行最优切分多维并行时序编排单维并行多轴融合故障链诊断故障极致快恢特征故障预测训练快:提升计算、通信、并行效率,使能大模型快速迭代升级3 0%CANN 大模型融合算子性能提升计算优化通信优化1 5%CANN 通算融合、集合通信算法创新,通信效率提升并行算法8%MindSpore 提供 8 维并行,性能提升内存优化3 5%MindSpeed 选择性重计算、多副本内存节省CANN MindSpor