《星汉未来:在离线混部解决方案白皮书(2022)(21页).pdf》由会员分享,可在线阅读,更多相关《星汉未来:在离线混部解决方案白皮书(2022)(21页).pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、星汉未来在离线混部解 决 方 案 白 皮 书Copyright 2022 北京星汉未来网络科技有限公司 版权所有,保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。http:/galaxy-目录前言一、在离线混部简介1.1 什么是在离线混部1.2 在离线混部的适用场景1.3 在离线混部的成本价值1.4 在离线混部的技术挑战1.4.1 资源隔离1.4.2 任务调度1.4.3 资源复用1.4.4 资源保障三、在离线混部方案解析3.1 分类维度3.2 维度组合解析3.3 方案推荐场景3.2.1 内核隔
2、离+容器底座+业务决策3.2.2 内核隔离+物理机底座+业务决策3.2.3 共享内核+物理机底座+业务决策3.2.4 共享内核+容器底座+自动调配二、一线大厂在离线混部架构及方案2.1 Google2.2 腾讯2.3 百度2.4 字节跳动2.5 快手2.6 阿里巴巴五、总结四、星汉未来在离线混部方案4.1 星汉未来产品矩阵4.2 星汉未来在离线混部方案0102020203030303030411111115121314150404060708091017161617CONTENTS01前言移动互联网高速发展的早期,企业更多关注业务扩张,用成本投入来换取市场占用率。但如今移动互联网经历了近十年的
3、高速发展,互联网人口红利逐渐消退,几乎没有公司能够再忽视成本。无论是苹果公司的供应链、库存管理,还是特斯拉通过国产化降低成本,又或者是各大云厂商对企业 IT 成本的优化,都是企业保持高速发展的重要因素。企业在早期的资源使用上以满足业务需求为第一要务,资源的使用率管理相对粗放。中国信息通信研究院调查数据显示,在云原生技术给企业带来的各项价值中,“提升资源利用率以节约成本”已经连续两年排名第一,2021年有九成用户认可该项价值。随着企业用云程度加深,已经有越来越多应用迁移到云原生架构上,然而 2021 年 CNCFFinOps Kubernetes Report调研报告显示,迁移至 Kuberne
4、tes 平台后,68%的受访者表示所在企业计算资源成本有所增加,36%的受访者表示成本飙升超过 20%,调查结果如图所示。这些都说明,即使是资源利用率更高的云原生架构也需要合理的资源成本管理。而在离线混部技术作为提升资源利用率,降低成本的理想方案,受到业界的一致认可和推荐。图1 云原生技术给企业带来的各项价值图2 迁移至 Kubernetes 平台后成本变化调查结果一、在离线混部简介02随着微服务、大数据、人工智能的不断发展,为了满足业务需求,企业的 IT 环境通常运行两大类服务,一类是在线服务,一类是离线作业。在线服务:一般长时间运行,服务流量存在周期特性,整体资源使用率不高,但有时延敏感,
5、资源有潮汐特征,对服务 SLA 有着极高的要求,如微博 Feed 服务、电商交易服务等。离线作业:一般是资源密集型服务,计算需求大、容错率高、时延不敏感,中断允许重运行,典型的是 Hadoop 生态下的 MapReduce、Spark 作业。这两种类型的服务负载在分时复用、资源互补上存在极大的优化空间,使得它成为混部的首选场景,所谓在离线混部,指的就是将离线作业和在线服务部署到同一个节点,以此来提高资源利用率,减少企业对与日俱增的成本开支。因为在线服务资源利用率有更明显的的起伏特征,所以混部要解决的主要问题一般是如何通过填充离线作业把集群各个时段的在线空闲资源利用起来。图3 在离线混部场景1.
6、1 什么是在离线混部业务流量周期性,对于在线服务,为了保证其流量高峰期的业务 SLA,往往按照最高峰值评估资源,但实际业务大都具有明显的潮汐特征,导致大部分时间段资源利用率都很低,造成浪费。集群资源碎片,服务器还有一定的静态资源没有被分配,但是由于此时各个维度的资源(如 CPU 和 Memory)不均衡,导致没有办法再继续分配资源。比如,一个有 1000+节点的集群,在分配率达到 80%后,常常会因为集群碎片的原因,很多大规格的 Pod 就无法再被创建出来。在离线机房隔离,资源池划分粒度太粗,有些企业会将在线机房、离线机房完全隔离开,在这么粗的粒度划分下,在线机房有大量资源闲置,也无法被离线服