李笙维 DataFunSummit非数据中心GPU上的大模型并行训练.pdf

编号:177548 PDF 33页 4.17MB 下载积分:VIP专享
下载报告请您先登录!

李笙维 DataFunSummit非数据中心GPU上的大模型并行训练.pdf

1、DataFunSummitDataFunSummit#20242024并行与分布计算全国重点实验室非数据中心非数据中心GPUGPU上的大模型并上的大模型并行训练行训练并行与分布计算全国重点实验室博士研究生 李笙维并行与分布计算全国重点实验室01研究背景并行与分布计算全国重点实验室 深度学习模型参数量呈爆炸式增长,对算力系统体系结构、系统软件提出了新的要求 大规模并行与分布计算仍然是基础模型训练的主要手段,HPC与AI融合发展 大规模训练的计算、通信、存储开销巨大,对并行模式和并行效率提出更高要求Fedus W,Zoph B,Shazeer N.Switch transformers:Scali

2、ng to trillion parameter models with simple and efficient sparsityJ.The Journal of Machine Learning Research,2022,23(1):5232-5270.并行训练基本方法基础模型参数量爆炸性增长一、研究背景:大模型并行训练并行与分布计算全国重点实验室 并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式 数据并行(data parallelism,DP)是将训练数据划分到多个设备,多个设备之间按照一定规则定期同步模型参数实现并行训练的一种方式 数据并行方式下每个设备计算时都会使用

3、有完整的模型参数 数据并行将数据切分为多份,不同份的数据由不同的设备进行处理优点-并行程序逻辑比较容易理解-单次迭代中模型训练的数据总量增加,使得总的训练时间减少缺点-为了保证收敛性,需要频繁的梯度同步通信一、研究背景:并行训练基本方法并行与分布计算全国重点实验室 并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式 模型并行(model parallelism,MP)训练是指将智能模型划分到多个计算单元的一种训练方式 模型并行方式下每个设备上只有模型的一部分,张量并行、流水线并行均属于模型并行 模型并行将数据切分为多份,每份数据需要所有设备进行处理优点-降低了模型训练时对单卡的显存

4、需求缺点-较大的通信开销(常见于张量并行)-较低的设备利用率(常见于流水线并行)一、研究背景:并行训练基本方法并行与分布计算全国重点实验室 并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式 张量并行(tensor parallelism,TP)张量并行是将深度学习模型中的参数切分到不同的设备上,每个设备只负责计算部分参数,从而实现并行计算。模型的参数分配到不同的设备上,每个设备只负责计算部分参数。Transformer中将嵌入层和多头自注意力机制的部分参数切分到不同的设备上进行计算。一、研究背景:并行训练基本方法Shoeybi M,Patwary M,Puri R,et al.M

5、egatron-lm:Training multi-billion parameter language models using model parallelismJ.arXiv preprint arXiv:1909.08053,2019.并行与分布计算全国重点实验室 并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式 流水线并行(pipeline parallelism,PP)将模型垂直分割成多个部分(称为“流水级”),每个流水级部署在一个或多个GPU上,数据在GPU之间按流水线方式流动。需要对流水线的操作进行调度,确保数据在各流水级间顺畅流动。因为数据依赖关系,设备计算会出

6、现空闲(idle),称为流水线气泡(bubble),影响整体硬件利用效率。一、研究背景:并行训练基本方法Huang Y,Cheng Y,Bapna A,et al.Gpipe:Efficient training of giant neural networks using pipeline parallelismJ.Advances in neural information processing systems,2019,32.并行与分布计算全国重点实验室 并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式 混合并行(hybird parallelism)是指结合模型结构特点或

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(李笙维 DataFunSummit非数据中心GPU上的大模型并行训练.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠