超大规模集群下大语言模型训练的最佳实践-刘育良.pdf

编号:181071 PDF 53页 5.58MB 下载积分:VIP专享
下载报告请您先登录!

超大规模集群下大语言模型训练的最佳实践-刘育良.pdf

1、超大规模集群下大语言模型训练的最佳实践快手大模型训练负责人/刘育良背景介绍background大模型发展历程 Encoder only Bert DiT Encoder-Decoder T5 GLM Decoder-only GPT 系列 Llama大模型“大”在哪里 参数量 llama-2 70B GPT3 175B GPT-MoE 1.8T 数据量 数 T tokens 的训练量为什么大模型有效计算量(FLOPs ratio GPT4)模型性能(越小模型越强)scaling law简单来说,就是模型能力与计算量有强相关性,可以通过持续扩大模型规模、数据规模来提升模型能力训练引擎的定位 提供

2、持续 scaling 的工具箱 更高的 scaling efficiency-“工欲善其事,必先利其器”为上下游提供技术判断算法联合优化组网策略服务器选型MFU-Model Flops UtilizationMFU=有效计算量训练时间理论算力=6ND(1+s12h+V16Lh)训练时间理论算力decoder-only LLM减少无效计算提高稳定性减少通信影响符号含义N参数量D数据量s序列长度hhidden dimensionV词表大小L模型层数挑战显存墙-“放不下”:以 GPT-3 为例,仅模型状态就需要 2800 GB计算墙-“算不完”:主流模型需要 1e24 FLOPs 以上计算量,需要单

3、卡 A100 算 101年分布式训练新挑战“分开放,一起算”引入通信通信墙减少通信量降通信对训练的影响稳定性减少失败次数减小失败影响训练阶段的挑战并行方案简介Data Parallel(DP)GPU 0datadataGPU 1Tensor Parallel(TP)GPU 0datadataGPU 1Pipeline Parallel(PP)GPU 0datadataGPU 1热点变迁PP bubble 增加PP 通信占比高集群规模扩增计算时间成比例降低DP通信占比高问题规模不变DP 通信时间不变模型规模扩大TP 通信占比高机内带宽阉割TP size 增大集群规模扩增问题规模不变interle

4、aved pipeline带宽算力比降低序列长度增加long context 场景效率极低TP 跨机大量重计算解决方案solutions计算通信 overlap动机从热点变迁中,可以看出,随着模型规模和集群规模扩增,通信占比越来越大。DP overlap 前TP overlap 前DP overlapZeRO overlap 方案overlapDP overlap混合并行下的 DP overlapoverlapoverlapratio=1 1v,其中 v 是 virtual pipeline stageDP overlap挑战通信资源与计算资源竞争产生额外的 pipeline bubble不同

5、通信之间资源争抢甚至会导致网络拥塞通信资源与计算资源竞争sm 资源竞争简单来说,通信会占用一定的 sm 数,导致计算受到通信的影响对于 Volta 之后的架构来说,TPC 上的 sm 会共享 shared memory 配置。以 A800 为例,如果 TPC 为通信 kernel 进行 shared memory curve-out 之后,TPC 中另一个 sm 会共享这个 shared memory 配置,使得通信导致的不可用 sm 数量翻倍。在 Hopper 上,对 sm90 及更高的版本来说,会把一个 grid 内的一些 blocks group 到一起,组成 cluster,以 clu

6、ster 为单位进行调度,因此会有潜在的碎片问题。通信资源与计算资源竞争综合考虑通信速度、计算时间增量量化分析通信资源与计算资源竞争区分 overlap、未 overlap 计算的通信问题:通过之前的分析可以发现,我们会牺牲一定的通信带宽来达到通信、计算的全局最优状态,然而并不是所有的通信都与计算进行 overlap,这会导致我们策略会伤害到未 overlap 计算的通信效率解决方案:我们区分对待 overlap 计算的通信、未 overlap 计算的通信。针对 overlap 计算的通信,我们会综合通信速度、计算时间增量 tuning 出最优的 CTAs,针对未 overlap 计算的通信,

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(超大规模集群下大语言模型训练的最佳实践-刘育良.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠