当前位置:首页 > 报告详情

2-5 阿里巴巴万卡 GPU PAI 集群的资源效率优化:数据剖析和工程实践.pdf

上传人: 云闲 编号:102473 2021-01-01 24页 8.20MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了阿里巴巴万卡GPU PAI集群的资源效率优化,通过数据分析与工程实践,提出了提升资源效率的方法。关键数据包括:集群拥有6000+GPU,覆盖1300+用户,1.2M任务,7.5M实例;资源申请存在长尾分布,资源使用不均衡,存在大量GPU资源浪费;GPU虚拟化和QoS管控,以及KubeDL等AI作业控制器,可提高资源利用率。文章提出了SLO差异化GPU混部、作业运行时长预测、以及基于历史画像的训练实例规格自动更新等优化策略。同时,也面临CPU瓶颈、机器和作业规格失配、I/O开销等问题,需要进一步解决。
"阿里万卡GPU集群资源优化实践" "GPU虚拟化与QoS控制如何提升集群效率" 如何实现资源效率最大化"
客服
商务合作
小程序
服务号
折叠