《2-邱骞-字节基础架构云原生K8S运维平台实践.pdf》由会员分享,可在线阅读,更多相关《2-邱骞-字节基础架构云原生K8S运维平台实践.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、字节基础架构云原生K8S运维平台实践2023 深圳站邱骞研究生毕业后曾先后就职于百度,京东,21年加入字节,8+年工作经验。目前主要负责公司BKE(bytedance kubernetes engine)。目标是构建字节K8S底层系统的产品化能力(Kubernetes as a Service),规范化、标准化公司K8S系统管理平台嘉宾照片字节跳动产品研发和工程架构部SRE基础平台2023 深圳站目录CONTENTS云原生运维现状&面临的挑战01 云原生运维平台建设02 K8S集群稳定性建设03 展望04 2023 深圳站01云原生运维现状&面临的挑战2023 深圳站 场景场景-存储云原生-在
2、离线融合-无状态/有状态/GPU/Godel.用户用户-全球研发-抖音、电商、支付、推广搜.-数亿DAU 规模规模-十万级微服务-百万级节点-千万级容器 环境环境-全球多区域多机房分布-异构资源CPU/GPU/DPU/FPGA运维现状:超大规模,场景复杂2023 深圳站面临的挑战运维产品运维产品稳定性成本运维效率2023 深圳站02云原生运维平台建设2023 深圳站运维平台Cluster APIVallaby ServerKubeletNode管理生命周期管理故障自愈DockerContainerd物理机DPUGPUVMAWSOCIGCPScheduler字节多云Vallaby AgentCM
3、DBBKE Meta K8S配置管理变更管控权限管理编排发布健康体系ApiserverClusterMachine.集群管理物理/逻辑集群故障自愈组件管理系统应用控制面/数据面版本管控组件基线维度发布模板管理集群场景模板集群Feature产品管控健康体系可观测运营分析History2023 深圳站运维平台不同视角K8S集群集群管理员组件管理员机器管理员集群怎么管?容量?集群怎么管理组件?node?集群怎么交付给业务用?组件版本怎么管?线上集群能不能保持一致版本?机器怎么流转?自愈怎么做?2023 深圳站集群视角-集群组&物理集群ClusterGroup/ZonePhysicalCluster1
4、/VDC物理集群:物理部署上相互独立的一组K8s 集群如何保持业务多机房容灾-集群组PhysicalCluster2/VDCPhysicalCluster3/VDCPhysicalCluster4/VDCnodenode.nodenode.nodenode.nodenode.ApiserverManagerScheduleretcdKubebrainGodel2023 深圳站集群视角逻辑集群ClusterGroup/ZonePhysicalCluster1/VDCPhysicalCluster2/VDCPhysicalCluster3/VDCPhysicalCluster4/VDClogica
5、lCluster1/bussinesslogicalCluster2/bussinesslogicalCluster3/bussinesslogicalCluster4/bussinessKubeletContainerdnydusconsul-proxynodenodenodenodenodenodenodenodebernard如何保持业务隔离-逻辑集群2023 深圳站集群视角单元集群&逻辑单元ClusterGroup/ZonePhysicalCluster1/VDCPhysicalCluster2/VDCPhysicalCluster3/VDCPhysicalCluster4/VDClo
6、gicalCluster1/bussinesslogicalCluster2/bussinesslogicalCluster3/bussinesslogicalCluster4/bussinessnodenodenodenodenodenodenodenodenodenodenodenodenodenodeUnitCluster/PC*LC单元集群是每一块物理集群和逻辑集群的交集逻辑单元逻辑拆分单元集群logicUnitlogicUnitlogicUnit2023 深圳站组件视角Cluster1Cluster2Cluster3ApiServerv1v2v3managerv1v2v4schedu
7、lerv1v2v3集群管理员组件管理员组件管理员组件基于集群视角发布会导致线上版本混乱组件管理员需要掌握更多核心科技-双向奔赴2023 深圳站组件视角组件版本化组件依赖基线版本组件发布版本保持 组件版本bin+conf Conf模版化template+args2023 深圳站组件视角组件版本化组件依赖基线版本组件发布版本保持 组件版本bin+conf Conf模版化template+args 部署依赖 发布依赖 互斥依赖2023 深圳站组件视角组件版本化组件依赖基线版本组件发布版本保持 组件版本bin+conf Conf模版化template+args 部署依赖 发布依赖 互斥依赖稳定版本20
8、23 深圳站组件视角组件版本化组件依赖基线版本组件发布版本保持 组件版本bin+conf Conf模版化template+args 部署依赖 发布依赖 互斥依赖稳定版本 组件集群关联关系 Patch发布 状态保持2023 深圳站组件视角组件版本化组件依赖基线版本组件发布版本保持 组件版本bin+conf Conf模版化template+args 部署依赖 发布依赖 互斥依赖稳定版本 组件集群关联关系 Patch发布 状态保持 基线版本 发布计划 发布引擎2023 深圳站组件视角组件集Cluster1Cluster2Cluster3component1ComponentSetcp1cp2cp3C
9、omponentSetcp1cp3cp4component2component3component4component5component6ComponentSetcp4cp5cp6控制面/数据面组件自定义组件管理维度场景模版2023 深圳站机器视角预算资源考核机器交付machinemachinemachinemachinemachinemachineBuffer池logicalClusterlogicalClusterlogicalCluster资源调度Planning policyRisk Control业务AutoScale2023 深圳站03K8S集群稳定性建设2023 深圳站稳定性痛
10、点痛点:机器规模大,单机问题频发 影响业务稳定 组件/系统/内核版本 线上不一致 集群容量quota管理 系统可观测及标准化程度不高,事件难追溯决策自动化模型故障自愈容量保持可观测能力异常检测感知执行AIOPS可信变更2023 深圳站稳定性建设自动化模型2023 深圳站稳定性建设故障自愈NPDk8sEventFaultPlatform.DetectorAggregation映射降噪Repair抑制修复FaultPolicyBindingAggPolicyBindingTemplateBindingControllerCRDAgent2023 深圳站稳定性建设资源保持集群间调整新机器交付过保裁撤
11、资源拆借C s c dAutoScalerClusterMachine初筛打分优选确定集群/机器.2023 深圳站稳定性建设AIOPS数据驱动DataOPS云原生业务云原生业务运维体系运维体系智能运维AIOPS异常检测异常检测可信变更可信变更2023 深圳站数据预处理数据预处理对于监控系统产生的历史数据,会对缺失值进行插补,以及对数据进行标准化,滤波器过滤等前置处理 时序分类时序分类根据监控曲线的形态,对曲线进行分类,包括周期类型,震荡类型,趋势增长类型等异常检测异常检测基于上述分类结果,选择不同的异常检测算法,包括极值理论,时序分解,神经网络等模型异常分类异常分类最后再根据异常时刻的形态对告
12、警进行分类与抑制,比如突增/突降,抖动过滤等,后续输出到告警与故障自愈流程监控数据告警&处理AIOPS异常检测引入一套包含数据处理,时序分类,异常检测到告警处理的AIOPS全流程框架2023 深圳站90%+降低配置成本降低配置成本传统监控指标需要大量经验配置,维护以及长时间调试算法自动学习不断优化20 x噪声降低噪声降低通过对网络抖动的识别,以及多指标的校验,相比于传统阈值监控,降低了20 x以上的告警量,专注于真正的故障200minMTTR提升提升分钟级检测,快速定位以及故障自愈工程,可以带来平均超过200min以上的MTTR提升AIOPS异常检测2023 深圳站AIOPS可信变更从故障占比
13、来看,近70%的故障是由于变更或配置变动等导致的故障占比大故障占比大对于一次变更,持续时间长,上下游依赖复杂,影响时间久,通常很难长时间监控监控成本高监控成本高变更前后经常有流量的跌零突增等现象,需要大量的经验才能判断是否为真实异常依赖专家经验依赖专家经验数据处理数据处理 短时序短时序异常检测异常检测多源时序多源时序降噪降噪变更模式变更模式识别识别后置检测后置检测告警&处理变更批次1变更批次2变更批次3后置检测后置检测后置检测后置检测小流量小流量单机房单机房全流量全流量2023 深圳站10s检测单批次耗时低检测单批次耗时低算法检测耗时低、开销小在时效性方面可以达到10s/批次的平均检测时效,分
14、钟级检测时延有效提升变更故障MTTR0.3%噪声打扰小噪声打扰小告警率反应算法是否过于打扰用户影响变更流程,线上做到每1000次变更提单产生3次告警100%覆盖场景无漏告覆盖场景无漏告召回率目前100%,覆盖的组件变更场景未出现故障漏告,并已经检测出多次经确认的真实风险变更AIOPS可信变更2023 深圳站04展望2023 深圳站展望健康体系无人值守 平台模型通用化 开源社区CSDN全球最大的中文开发者社区平台CSDN全球最大的中文开发者社区平台CSDN创立于1999年全球编程类网站排名第7(来源:Similarweb 2023.04)注册用户超过4300万,覆盖90%的中文开发者新媒体矩阵粉丝数量超过3100万超过1000家企业客户和合作伙伴目前公司员工近800名,分布在北京、长沙、上海、深圳、杭州、成都等城市,并在美国硅谷常设办事处旗下品牌旗下品牌专业中文IT技术社区:CSDN.NET多媒体专业出版:新程序员开发者专属移动APP:CSDN APP代码托管协作平台:GitCode代码工具协同平台:InsCodeIT人力资源服务:科锐福克斯丨八爪网络高校IT技术学习成长平台:高校俱乐部