刘东阳-vivo大模型计算集群建设实践.pdf-三个皮匠报告

1、vivo大模型计算集群建设实践vivo AI架构工程师刘东阳个人简介个人简介刘东阳 2018年加入vivo AI 研究院担任vivo AI计算平台研发工程师，参与平台从0到1建设，目前主要负责大模型训练算力及稳定性建设目录CONTENTS1 1、算力对大模型训练的重要性、算力对大模型训练的重要性2、大模型训练对计算集群的核心诉求3、vivo大模型计算集群的整体架构4、vivo自研蓝心大模型训练的一些心得算力对大模型训练的重要性大模型训练需要消耗巨大的算力，算力的不足会影响大模型的迭代升级效率，成为大模型的发展瓶颈。2020年，OpenAI团队在Scaling Laws for Neura

2、l Language Models论文中提出的Scaling Laws表明，要想模型效果（loss）好，模型参数规模、训练数据集、算力规模/计算量都要相应扩大。算力对大模型训练的重要性开源大模型的训练要消耗庞大的算力。以Meta的OPT-175B为例，单卡A100算力需要训练将近100年时间。假如要在30天完成训练，那么最理想情况下都要花费1000多张卡（809472/30/24=1124卡）此外，Meta近期公布推出两个24K H100 GPU集群（49152卡），用于训练LLaMA-3千亿级大模型目录CONTENTS1、算力对大模型训练的重要性2 2、大模型训练对计算集群的核心诉求、大模

3、型训练对计算集群的核心诉求3、vivo大模型计算集群的整体架构4、vivo自研蓝心大模型训练的一些心得大模型训练对计算集群的核心诉求大模型训练对计算集群的核心诉求是：高性能、高稳定的计算、网络、存储和调度。计算大模型训练对GPU性能的要求越来越高，低精度训练和高速互联是趋势。H系列卡具备新的精度FP8，使用FP8精度进行训练能带来可观的性能收益A800/H800系列特供版芯片对于国外芯片，对大模型训练主要的影响在于卡间NVLink互联带宽的通信影响（TP通信）计算优化GPU机内拓扑，提升大模型训练通信效率。机内卡间通信走NVLink跨节点卡间通信走GDR，绕过CPU和内存，提升通信效率GDR通

4、信效率 PIX PXB PHB SYS网络大规模分布式训练性能的关键是高带宽、低延迟、长稳定的网络。网络采用胖树和多导轨优化（NVIDIA称为rail-optimized）拓扑保证网络通信效率胖树：收敛比1:1，网络无拥塞。任何一张RDMA网卡都可以和整个网络中其他RDMA网卡高速通信多导轨：同号RDMA网卡接入同个叶子交换机，点对点效率最高（如 PP并行通信），也能让 nccl基于导轨做通信优化（如 PXN，可将异号卡通信转换为同号卡通信）存储大模型训练要求高吞吐、高iops、低时延的分布式存储。大模型训练场景中的痛点：大模型训练场景中的痛点：读场景痛点：多模态大模型训练对小文件（语音、图

5、片等）的iops和时延要求较高。写场景痛点：checkpoint的加载和保存性能存储采用分级缓存机制，优化训练读写性能，兼顾存储成本节省。无缓存，训练直接访问HDD分布式存储分级缓存（内存-本地SSD/nvme-nvme高性能缓存集群）存储分级缓存机制能有效解决分布式训练对于读写的痛点。读缓存对图像训练任务训练效率提升显著写缓存对写checkpoint的时间节省效果预估051015无缓存有缓存写checkpoint耗时时间（分）调度基于云原生的调度系统，提供面向AI训练的高效调度和资源管理。调度稳定性：故障率不可避免，调度侧重点要建设好异常快速识别、故障快速隔离、任务自动重启/快速恢复机制。案

6、例：Meta OPT 175B模型千卡训练的过程中故障频繁，训练中因为各种问题频繁中断，最长连续训练时间为2.8天目录CONTENTS1、算力对大模型训练的重要性2、大模型训练对计算集群的核心诉求3 3、vivovivo大模型计算集群的整体架构大模型计算集群的整体架构4、vivo自研蓝心大模型训练的一些心得vivovivo大模型计算集群的整体架构大模型计算集群的整体架构计计算算集集群群公有云集群IDC自建集群云厂商A 集群云厂商B 集群集群A集群BVTraining训练平台

刘东阳-vivo大模型计算集群建设实践.pdf

相关报告