当前位置:首页 > 报告详情

华为云 王雷博-基于Volcano的云原生AI基础设施落地实践-v2.pdf

上传人: 张** 编号:155785 2024-02-15 23页 4.55MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了基于Volcano的云原生AI基础设施的落地实践。Volcano是一个业界首个云原生批量计算平台,开源于2019年,目前是CNCF孵化级项目。它提供了统一的作业管理、丰富的高阶调度策略、细粒度的资源管理以及性能优化和异构资源管理。 在华为云的实践中,Volcano运行于华为云的众多容器服务,支撑了华为云外部客户业务以及公司内部业务,如终端业务、ModelArts AI平台服务等。它支持多种负载类型,如微服务、大数据分析、机器学习、深度学习等。 Volcano在AI训练性能上相比默认调度器有显著提升,例如AI训练作业性能提升31%,Spark作业性能提升51%。它还支持多种类型作业的混合部署,支持多队列用于多租户资源共享,并分时复用资源。此外,Volcano还支持资源实时监控,用于高精度资源调度,例如热点,网络带宽等。 综上所述,Volcano是一个高效的云原生AI基础设施,能够提升AI训练性能,支持多种作业类型,实现资源的高效利用。
云原生AI基础设施面临哪些挑战? Volcano项目如何提升AI训练性能? 基于Volcano的AI基础设施如何实现降本增效?
客服
商务合作
小程序
服务号
折叠