《04-美团大数据及机器学习基础设施云原生改造实践-吴通.pdf》由会员分享,可在线阅读,更多相关《04-美团大数据及机器学习基础设施云原生改造实践-吴通.pdf(54页珍藏版)》请在三个皮匠报告上搜索。
1、美团数据及机器学习集群云原改造实践 美团数据平台资源与系统负责/吴通录早期架构及升级背景 云原改造过程 关键问题和思考 未来规划改造前架构场景特点数据和机器学习两个场景,先有数据,后有机器学习 数据场景供需共构,对扩展性、可观测性等诉求不,机器故障率低 机器学习场景供需异构,对调度语义、扩展性、可观测性、运维友好均有诉求,机器故障率改造前痛点扩展App类型复杂度 依赖AM,户感知,影响资源统计 持GPU、RDMA、NPU等设备复杂度 调度策略定制成本 故障感知、监控、可观测平低更深层次的原因离线场景的路径依赖 架构变更带来的不确定性 K8S VS YARNYARN:分布式集群资源调度系统 K8
2、S:分布式集群操作系统,管理集群资源的,不仅仅是调度改造后架构录早期架构及升级背景 云原改造过程 关键问题和思考 未来规划控制改造内容概览组件改造内容简介etcd服务器和客户端均升级3.5.5,提升性能并修复单节点revision落后较多的问题kube-apiserver1.解决负载不均衡问题2.httplog获取userAgent可能触发map并发读写问题3.修复get&watch在apiserver_request_duration_seconds_bucket错误展示的问题controller-manager1.改造Endpoint Controller,以解决underlay CNI不
3、持ClusterIP service问题2.增强NodeLifecycle Controller处理Not Ready Node的能,降低节点不可对已有负载的影响Operator1.SparkOperator:解决spark on k8s,持spark 2.2和RSS2.TrainingOperator:解决TF、MPI、PyTorch on K8S,持容错3.AFOServingOperator:以PaaS式解决TF、PyTorch、Triton 推理 on K8S4.OrdinaryServingOperator:以类IaaS式管理在线服务5.Codelab Operator:以容器式给程
4、师提供开发实验环境 6.PrestoOperator:Presto cluster on K8S,持弹性容错调度器研调度器,持各种级特性,吞吐平较节点端改造内容概览组件改造内容简介物理机调整挂盘式,借助硬/软Raid解决kubelet不能管理多磁盘的问题kubelet1.卡、GPU亲和性持到PCIE级别2.持多卡Pod分配多IP3.不同作业采不同的oom处理策略4.改造static cpu manager,适配预留cpu核的绑核法5.修复系列导致kubelet不稳定的问题,如device权限、terminating pod、IP回收等问题device plugin1.gpu-device-pl
5、ugin持按卡类型汇报资源名2.gpu-device-plugin、rdma-device-plugin持更丰富的设备健康检查和异常处理机制3.gpu-device-plugin、rdma-device-plugin持PCIE级亲和策略4.npu-device-plugin持ring内npd1.增强节点异常检查功能,保证节点在运期环境是符合预期的2.包括CPU、GPU、卡等硬件环境,也包括存储系统、IP管理等软件环境络1.采underlay CNI,实现pod和集群外部络资源互联2.改造clusterIP service实现式,实现在underlay CNI的负载均衡案存储1.持访问HDFS,
6、主要解决从NameNode获取token和renew token,并存储到Pod内的问题2.持访问Dolphin FS,实现了套CSI Driver,采静态提供PV的式,并持件系统故障后可动恢复,不影响已有负载 3.持访问EBS,实现了套CSI Driver,采动态提供PV的式。来剥离解决实验开发场景的状态保存,以实现挂起恢复功能改造内容概览组件改造内容简介监控告警1.3分2副本Prometheus,3thanos,3thanos-ruler2.建设k8s_alert对接公司内部的告警系统3.建设raptor-adaptor,对接在线服务指标到公司内部中间件可观测1.主流志案般采消息队列实时收