当前位置:首页 > 报告详情

04-美团大数据及机器学习基础设施云原生改造实践-吴通.pdf

上传人: 2*** 编号:122313 2023-04-03 54页 14.03MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
美团大数据及机器学习集群云原生改造实践主要包括以下几个方面: 1. 改造前架构场景特点:大数据和机器学习两个大场景,大数据场景供需共构,对扩展性、可观测性等诉求不高,机器故障率低;机器学习场景供需异构,对调度语义、扩展性、可观测性、运维友好均有高诉求,机器故障率高。 2. 改造前痛点:扩展App类型复杂度高,依赖AM,用户无感知,影响资源统计;支持GPU、RDMA、NPU等设备复杂度高;调度策略定制成本高;故障感知、监控、可观测水平低。 3. 改造后架构:采用K8S VS YARN,改造控制面、节点端、存储、网络、监控告警、可观测性等。 4. 自研调度器:支持多租户配额管理,集群唯一调度器,支持抢占式调度,配额之上增加弹性量,提升资源利用率;支持划分逻辑资源池,Pod自适应优选策略,减少GPU碎片;支持RDMA亲和性调度,更好地支持高性能计算需求。 5. 未来规划:完成大数据离线和实时场景的云原生改造,场景间混部提升资源效率,构建场景适配的调度能力,持续提升稳定性和资源效率。
云原生改造如何提升调度能力? 调度器如何实现Gang Scheduling? 日志架构如何优化以提高效率?
客服
商务合作
小程序
服务号
折叠