《vescale-a-pytorch-native-llm-training-framework-vescaledaeppytorch-chang-llmxiao-zhen-hongyu-zhu-bytedance.pdf》由会员分享,可在线阅读,更多相关《vescale-a-pytorch-native-llm-training-framework-vescaledaeppytorch-chang-llmxiao-zhen-hongyu-zhu-bytedance.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、为为PyTorchPyTorch原生模型提供自动并行的训练框架原生模型提供自动并行的训练框架veScale TeamByteDance2024-8-22PhD毕业于多伦多大学(导师:Gennady Pekhimenko)2022年3月加入字节跳动目前主要专注于大语言模型训练架构相关工作关于我朱虹宇议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望单个model往往需要数周时间开发为什么需要VeScaleDebug难度大nn.Linear人力维护成本繁重当前的框架的使用痛点GradBuffer DefragAllReduce OverlapColumnParallelLin
2、ear相互纠缠的bugs系统代码与模型代码纠缠自动化程度低非PyTorch无分布式checkpoint为实现PyTorch原生模型的自动并行的训练框架当前的框架的使用痛点GradBuffer DefragAllReduce Overlapnn.LinearNo Intertwining减少人力维护成本议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望自动生成多维并行plan在集群上部署自动并行自动reshard分布式模型checkpoints分布式DTensornn.Linear,nn.Embedding,.PP=8,DP=4,TP=2,PPSplit=fc1,fc3,.
3、,TPShard=fc1.weight:Shard(),.转化torch.Tensorsave&loadVeScale设计与实现议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望简易的多维度并行训练API(WIP)VeScale用户代码Demo模型代码零改动训练代码零改动5行代码实现多维度并行VeScale初步测试结果4D分布式训练下的Bitwise正确性nanoGPTnanoGPT TrainingVeScale初步测试结果4D分布式训练下的Bitwise正确性MixtralLLama2End2End MFU SpeedupPyTorch TPveScale TP1x1
4、.21.4xVeScale初步测试结果Tensor Parallelism的性能优势(WIP)Mixtral MoEEnd2End MFU SpeedupPyTorch TPveScale TP1x1.21.3xLLAMA2议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望veScale简单的APIBitwise正确性高性能Open Source Community:Everyone最终目标:支持Impact!“An Ambitious Work!”-Llama Training Lead-PyTorch Training Lead“A Promising Work!”-
5、AWS AI Lab-Octol AI-Boson AI未来展望“But Many Effort Ahead;Long-Term Effort Ahead.”-Llama Training LeadVeScale的下一步计划 Eager模式下的易用性和性能提升 更强的fsdp2(性能,易用性以及fsdp2+pp+tp支持)更强的Compile支持 自动生成多维并行Plan未来的挑战veScale进展当前进度易用性与性能权衡多维度并行下的bitwise正确性多达800个PyTorch算子支持(random order)Leaders Li-wen Chang,Yanghua Peng,Haibin Lin,Xin LiuContributers Xinyi Di,Jiawei Wu,Hongyu Zhu,ZiangSong,Jiacheng Yang,Youjie LiCollaborators Minji Han,Chengji Yao,Chenyuan Wang,Yan Xu,Changming Yu,Wenlei Bao,Hao Gong,Ming Zhang,Ningxin Zheng,Xuanrun ZhangAcknowledgementvescale.xyzOpen Source for All