当前位置:首页 > 报告详情

蒋菁菁--企业级云原生机器学习平台GPU资源效能提升实践.pdf

上传人: 鲁** 编号:615371 2025-03-03 34页 5.59MB

1、例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号 宋体:最小字号 10号 等线:最小字号 12号企业级云原生机器学习平台GPU资源效能提升实践 蒋菁菁eBay高级技术专家蒋菁菁eBay高级技术专家在机器学习平台领域有丰富的工作经验。2018年加入eBay机器学习平台,参与并负责了eBay机器学习模型训练平台分布式训练功能支持、用户权限管理系统、多集群管理等项目的设计和开发,对模型训练平台有丰富的设计开发经验。对数据平台及其接入有实战经验和深入了解。目前负责训练及推理平台GPU资源利用的优化工作。CONTENTS目录

2、1.背景介绍2.GPU资源利用率的问题与挑战3.提高GPU资源利用率的解决策略4.成果与案例分析5.结论与展望背景介绍昂贵的GPUNvidia B100:$30,000-35,000GPU资源在机器学习中的重要性海量数据算力算法AI模型推理请求推理结果AI平台-MLOps生命周期GPU利用率的问题与挑战GPU资源利用率低下的概况利用率共享部门1部门2离线资源池离线在线利用率中低工作类型主要影响因素分析流水型作业探索实验型利用率离线工作类型利用率时间探索型使用模式闲置的探索型作业降低利用率主要影响因素分析共享部门1部门2隔离的资源池降低利用率离线资源池在线资源池主要影响因素分析固定GPU实例数的

3、在线部署降低利用率利用率时间TPS时间在线部署GPU实例数对企业的影响资源浪费分配不均 总体GPU有空闲,但个别部门的GPU业务要等待效率低下提高GPU利用率的解决策略业务混部策略Global GPU SchedulerOnline production SLA pool(HA model serving)Autoscaling based on site trafficFree GPUs in poolOffline pool(batch inference,training)High priority batch workloadsPreemptible workloadsFree GPU

4、s allocated to preemptible workloadsSuper pod(foundation model training)WIP策略说明离线资源池和在线资源池通过节点粒度隔离,按需移动 在线需要低延迟、高SLA,而离线作业网络IO大,所以需要隔离 在线资源池buffer低于阈值后,从离线移节点往在线 在线资源池空闲、离线作业等待时间高,从在线移节点往离线离线资源池内部不再隔离,通过优先级和抢占式调度分配离线资源调度优化抢占式调度优先级设置:高:生产作业、高优先业务(如LLM)中:一般作业低:无时限临时性作业在线部署自动扩缩容技术基本原理关键配置参数minReplicaCo

5、untmaxReplicaCounttriggersscaleUp/scaleDown policystabilizationWindowSecondsPods/Percent value如何得到?运维工具回收闲置资源 离线:空闲12h GPU notebook 16d GPU job 在线 Preprod 空闲GPU部署扫描GPU利用率低的在线部署,分析原因并行动实时监控基于Prometheus&Grafana分析工具部门GPU Day分布部门GPU利用率趋势分析工具(基于OpenSearch)数据收集(批处理作业)元数据系统指标元数据存储指标存储成果与案例分析GPU利用率前后对比合并资源池

6、,优化调度运维回收闲置自动扩缩容节省GPU数目减少了对购买新GPU的需求结论与展望主要成果总结打通资源池,提高总体利用率回收闲置资源,提高利用效率利用自动扩缩容、优先级调度等技术,按需分配资源,提高利用率未来发展方向在线:自动扩缩容技术:集群内autoscaling=跨集群autoscaling 加速LLM scaleup时间 发掘更多LLM扩缩容指标离线:CPU/GPU计算分离:采用Ray等技术,提高计算效率 Workload动态rebalance(bin-packing)

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了企业级云原生机器学习平台GPU资源效能提升实践。文章指出,GPU资源在机器学习中的重要性,但目前GPU资源利用率低下,存在资源浪费、分配不均等问题。为提高GPU利用率,文章提出了一系列解决策略,包括业务混部策略、Global GPU Scheduler、自动扩缩容技术等。同时,文章还介绍了运维工具,如回收闲置资源和基于Prometheus & Grafana的分析工具。案例分析显示,通过优化调度、回收闲置资源和自动扩缩容等技术,可以显著提高GPU利用率。未来发展方向包括在线和离线的计算分离、Workload动态rebalance等。总的来说,本文提供了一种提高企业级云原生机器学习平台GPU资源利用率的实践方法。
如何提高企业级云原生机器学习平台GPU资源的效能? eBay如何通过优化调度策略提高GPU资源利用率? 跨部门共享GPU资源与弹性扩缩容技术在实践中如何应用?
客服
商务合作
小程序
服务号
折叠