《阿里巴巴云原生混部技术演进-曾凡松.pdf》由会员分享,可在线阅读,更多相关《阿里巴巴云原生混部技术演进-曾凡松.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、云原生混部技术分享曾凡松(逐灵)阿里云高级技术专家天猫双11计算成本持续降低的秘密混部的起源PART 1 /阿里混部技术历程PART 2 /云原生混部技术及案例PART 3 /混部的起源PART 1阿里容器技术简史内部容器调度演进的重要事件20142016201820202011容器化探索Zeus/Hippo/Fuxi阿里构建了在线交易、搜索、大数据调度系统,收敛了资源分散在几百个 BU 带来的资源碎片及运营成本的问题T4容器阿里第一个自研容器引擎,基于LXC 研发 T4 容器,使得淘宝业务从 VM 过渡到容器调度系统探索全面容器化云原生探索云原生统一调度Sigma基于 swarm 打造的容器
2、调度引擎,驱动集团全面容器化,统一管理公司的资源,并探索了与 ODPS 混部技术架构Alpha ASI调度引擎基于 k8s 基座的探索,加速业务运维生态融入 k8s,底层引擎基于 sigma,探索基于安全容器的第二代混部架构ASI 统一调度打造第三代基于 ASI 的全业务混部系统,统一了电商、搜索、大数据、蚂蚁的资源调度基础设施,混部技术水位做到领先行业混部诞生的历史背景题混部源自对数据中心利用效率的不懈追求Accenture Technology Labs2011Google 公开数据显示其数据中心利用率 30%40%2011埃森哲报告显示 2011 年公有云数据中心的机器利用率平均不到 1
3、0%,意味着企业的资源成本极高;另一方面大数据技术的发展迅速,计算作业对资源的需求越来越大。如何解决?混部定义,什么是混部呈现形态:1.集群维度:在一个K8S集群内编排多种类型负载,共享资源池消除浪费2.节点维度:基于对应用、对工作负载的足够理解,让多个类型负载在一个节点上运行,释放闲置资源价值延迟敏感服务批处理计算实时计算在线+在线在线+离线离线+离线企业内不同的业务线资源统一管理,解决资源池割裂带来的效率问题。技术上需要提供共池的资源精细化编排能力。企业日常态与大促态资源灵活拆借,解决大规模资源弹性的效率问题。技术上需要提供在线离线混部水位管理能力。企业内不同的计算框架资源统一管理,解决资
4、源池割裂带来的效率问题。技术上需要提供计算任务共池弹性额度管理能力。日常态容量多活预留容量日常态容量多活预留容量AZ1AZ2CPU usage在线业务典型的峰谷特征CPU usage多活预留的资源长期是不会用到的,所以共节点后提供给短生命周期的任务共享,最大化算力价值。典型的在线业务夜间存在波谷,而夜间恰好是大数据计算任务的计算窗口,利用波谷算力空闲完成报表计算。阿里混部历程PART 2阿里混部技术阶段一:容器化完成了调度系统的探索,从 VM 过度到容器说明一备注说明一备注说明一Zone2(不同机房或地域)Zone1机房调度(含节点调度)调度核心MasterAI-RC(Resource Con
5、troller)在线调度器Zeus-RCAI(T4 操作入口)交易 PaaS Aone-NormandyAI-ZC(Zone Controller)ETCD机房调度zeus-zcNC集群StarAgent离线调度器Zeus-RC调度引擎调度引擎容器调度的开端容器调度的开端在线交易调度策略容器化的开端容器化的开端Docker容器化验证始创:在线容器调度的开端在线交易容器调度的积累在线交易容器调度的积累调度、容器、混调度、容器、混部部 变革的开端变革的开端应用应用宿主机运维宿主机运维数万宿主机故障自动运维有无状态的定义与区分运维全自动化运维变革全自动化运维变革的开端的开端容器容器T4T4运维运维容
6、器异常的全自动化运维探索(如OOM、T4 IP冲突)无状态应用自动重启迁移中心调度器:基于调度策略的精细化调度单机调度:CPU调度首次发挥价值内核调度规模化方向的确定:腾挪、凑框、搬迁、建站全局最优的调度把控1.容器自动运维的变革,PE禁止触碰应用进程的初步终结。2.宿主机自动化运维的变革,省掉一支T4宿主机运维团队的投入。混部的开端混部的开端100台小流量在离线混部验证l 规划了“统一资源管理”的长远目标l 面对太多未知、太多需要变化,处处是质疑l 阿里业务增长迅猛,资源规模逐年翻翻,挑战和机遇并存阿里混部技术阶段二:统一资源池Sigma 资源调度系统Aone/PSP/WPP/LARK等研发