vescale-a-pytorch-native-llm-training-framework-vescaledaeppytorch-chang-llmxiao-zhen-hongyu-zhu-bytedance.pdf

编号:627323 PDF 20页 1.41MB 下载积分:VIP专享
下载报告请您先登录!

vescale-a-pytorch-native-llm-training-framework-vescaledaeppytorch-chang-llmxiao-zhen-hongyu-zhu-bytedance.pdf

1、为为PyTorchPyTorch原生模型提供自动并行的训练框架原生模型提供自动并行的训练框架veScale TeamByteDance2024-8-22PhD毕业于多伦多大学(导师:Gennady Pekhimenko)2022年3月加入字节跳动目前主要专注于大语言模型训练架构相关工作关于我朱虹宇议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望单个model往往需要数周时间开发为什么需要VeScaleDebug难度大nn.Linear人力维护成本繁重当前的框架的使用痛点GradBuffer DefragAllReduce OverlapColumnParallelLin

2、ear相互纠缠的bugs系统代码与模型代码纠缠自动化程度低非PyTorch无分布式checkpoint为实现PyTorch原生模型的自动并行的训练框架当前的框架的使用痛点GradBuffer DefragAllReduce Overlapnn.LinearNo Intertwining减少人力维护成本议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望自动生成多维并行plan在集群上部署自动并行自动reshard分布式模型checkpoints分布式DTensornn.Linear,nn.Embedding,.PP=8,DP=4,TP=2,PPSplit=fc1,fc3,.

3、,TPShard=fc1.weight:Shard(),.转化torch.Tensorsave&loadVeScale设计与实现议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望简易的多维度并行训练API(WIP)VeScale用户代码Demo模型代码零改动训练代码零改动5行代码实现多维度并行VeScale初步测试结果4D分布式训练下的Bitwise正确性nanoGPTnanoGPT TrainingVeScale初步测试结果4D分布式训练下的Bitwise正确性MixtralLLama2End2End MFU SpeedupPyTorch TPveScale TP1x1

4、.21.4xVeScale初步测试结果Tensor Parallelism的性能优势(WIP)Mixtral MoEEnd2End MFU SpeedupPyTorch TPveScale TP1x1.21.3xLLAMA2议程为什么需要VeScaleVeScale设计与实现初步测试结果未来展望veScale简单的APIBitwise正确性高性能Open Source Community:Everyone最终目标:支持Impact!“An Ambitious Work!”-Llama Training Lead-PyTorch Training Lead“A Promising Work!”-

5、AWS AI Lab-Octol AI-Boson AI未来展望“But Many Effort Ahead;Long-Term Effort Ahead.”-Llama Training LeadVeScale的下一步计划 Eager模式下的易用性和性能提升 更强的fsdp2(性能,易用性以及fsdp2+pp+tp支持)更强的Compile支持 自动生成多维并行Plan未来的挑战veScale进展当前进度易用性与性能权衡多维度并行下的bitwise正确性多达800个PyTorch算子支持(random order)Leaders Li-wen Chang,Yanghua Peng,Haibin Lin,Xin LiuContributers Xinyi Di,Jiawei Wu,Hongyu Zhu,ZiangSong,Jiacheng Yang,Youjie LiCollaborators Minji Han,Chengji Yao,Chenyuan Wang,Yan Xu,Changming Yu,Wenlei Bao,Hao Gong,Ming Zhang,Ningxin Zheng,Xuanrun ZhangAcknowledgementvescale.xyzOpen Source for All

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(vescale-a-pytorch-native-llm-training-framework-vescaledaeppytorch-chang-llmxiao-zhen-hongyu-zhu-bytedance.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠