《2-5 阿里巴巴万卡 GPU PAI 集群的资源效率优化:数据剖析和工程实践.pdf》由会员分享,可在线阅读,更多相关《2-5 阿里巴巴万卡 GPU PAI 集群的资源效率优化:数据剖析和工程实践.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、阿里巴巴万卡GPU PAI 集群的资源效率优化 数据剖析和工程实践AprilApril 20222022余英豪余英豪AIAI基础设施研发基础设施研发翁祈桢翁祈桢ResearchResearch InternInternOutline2 集群概览 GPU资源效率 数据分析和洞察 工程实践 挑战和展望集群概览 AI驱动核心业务 淘宝、搜推广、达摩院、高德、自动驾驶、菜鸟 训练,在线/离线推理 CV,NLP,推荐 万卡级别的集群规模 多种卡型号,从P100到A100 多种资源配置,从单卡16核到8卡192核8网卡3PAI:Platform for AI4 KubeDL all-in-one AI作业
2、控制器 兼容Kubernetes API的增强调度器 GPU 虚拟化、QoS管控 Scheduler Tailored for DL workloadsGPU Virtualization and QoS Control数据分析更多细节请参见NSDI22论文:MLaaSin the Wild-Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters5Traces arereleasedat:https:/ Overview PAI:包含 6000+GPU的生产集群,离线处理(训练、批量推理)为主,数据采
3、集于2020年7-8月;覆盖1300+用户,1.2M任务,7.5M实例6Traces arereleasedat:https:/ equipped with NVLink运行时长和调度延迟 运行时长从秒级到天级(Philly1)(a)短任务的调度延迟占据生命周期的相当比重(b)申请整卡和高端卡的任务等待时间更长(c)(d)7101102103104105106InstDnFe run-tiPe(seF)020406080100CD)(%)3AI3hilly02550751004ueueLQg/ComSletLoQ(%)020406080100CD)(%)/oQg tDsksAll tDsks6
4、hort tDsks100101102103104105,nstDnFe queueing GelDy(seF)020406080100CD)(%)0.25,0.5)G38s0.5,1)G38s1 G38 1 G38100101102103104105InVtDnFe Tueueing delDy(VeF)020406080100CD)(%)T40I6C3100V100V100032(a)(b)(c)(d)1Jeon,Myeongjae et al.“Analysis of Large-ScaleMulti-Tenant GPU Clusters for DNN Training Worklo
5、ads.”ATC 19 https:/ mDin memRUy020406080100CD)(%)0em 5equest0em 8sDge0.00.51.01.52.0#GP8s020406080100CD)(%)GP8 5equestGP8 8sDge06102030#vC38 Fores020406080100CD)(%)C38 RequestC38 8sDge业务视角:资源需求 资源申请:CPU/GPU/Mem 均存在长尾分布现象:2-8法则(实线)资源使用:不均衡,超过90%的业务GPU算力用量少于半张卡(虚线)资源申请和使用量存在Gap 提升效率的空间8(a)(b)(c)025507
6、51008tilizDtion(%)020406080100CD)(%)P50 of 8-GP8 noGesCP8GP80ePGP8 0eP02550751008tilizDtion(%)020406080100CD)(%)P50 of 2-GP8 noGesCP8GP80ePGP8 0eP02550751008tilizDtion(%)020406080100CD)(%)P90 of 2-GP8 nodes02550751008tilizDtion(%)020406080100CD)(%)P90 of 8-GP8 nodes机器视角:资源效率 8卡机器的CPU利用率显著高于2卡机器(中位和长