火山引擎:云原生机器学习系统落地和实践(2023)(20页).pdf

上传人: 一*** 编号:122384 2023-04-16 20页 7.89MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
火山引擎高级工程师郭海青在 2023 年 3 月 27 日介绍了云原生机器学习系统落地与实践。主要内容包括:1) 负载特性:在线推理服务强调延迟和效果并重,NUMA 绑定和异构设备支持;离线训练服务要求 PS 存储模型参数,Worker 计算更新梯度,对稳定性要求较高,单个异常需要进行 failover,而 Worker 容忍部分异常。2) 云原生化的动机:统一在离线编排调度体系,实现资源池化,提高资源流转效率和利用率;利用 K8s 提高用户体验。3) Godel 调度系统:支持 Dispatcher 调度任务分发,Scheduler 实际调度和抢占,Binder 解决调度冲突等。4) Katalyst 资源管控系统:通过 Katalyst Agent、CNR、QRM Plugins、SysAdvisor 等实现资源收集、上报、管控和调度。5) GPU 利用率提升实践:通过 MPS + Bytecuda 实现 GPU 共享,Bytecuda 监控显存使用情况并保证其在请求的 quota 之内,实现 GPU 常态混部。6) 未来展望:池化精细化,灵活高效的拆借,统一联邦,精细化调度,减少碎片,动态、灵活的 scaling 机制。
"云原生机器学习系统如何提高GPU利用率?" "离线训练中,PS-Worker架构和Ring AllReduce架构有何不同?" "如何通过Katalyst资源和GPU常态混部实现资源优化和管理?"
客服
商务合作
小程序
服务号