1、字节基础架构云原生K8S运维平台实践2023 深圳站邱骞研究生毕业后曾先后就职于百度,京东,21年加入字节,8+年工作经验。目前主要负责公司BKE(bytedance kubernetes engine)。目标是构建字节K8S底层系统的产品化能力(Kubernetes as a Service),规范化、标准化公司K8S系统管理平台嘉宾照片字节跳动产品研发和工程架构部SRE基础平台2023 深圳站目录CONTENTS云原生运维现状&面临的挑战01 云原生运维平台建设02 K8S集群稳定性建设03 展望04 2023 深圳站01云原生运维现状&面临的挑战2023 深圳站 场景场景-存储云原生-在
2、离线融合-无状态/有状态/GPU/Godel.用户用户-全球研发-抖音、电商、支付、推广搜.-数亿DAU 规模规模-十万级微服务-百万级节点-千万级容器 环境环境-全球多区域多机房分布-异构资源CPU/GPU/DPU/FPGA运维现状:超大规模,场景复杂2023 深圳站面临的挑战运维产品运维产品稳定性成本运维效率2023 深圳站02云原生运维平台建设2023 深圳站运维平台Cluster APIVallaby ServerKubeletNode管理生命周期管理故障自愈DockerContainerd物理机DPUGPUVMAWSOCIGCPScheduler字节多云Vallaby AgentCM
3、DBBKE Meta K8S配置管理变更管控权限管理编排发布健康体系ApiserverClusterMachine.集群管理物理/逻辑集群故障自愈组件管理系统应用控制面/数据面版本管控组件基线维度发布模板管理集群场景模板集群Feature产品管控健康体系可观测运营分析History2023 深圳站运维平台不同视角K8S集群集群管理员组件管理员机器管理员集群怎么管?容量?集群怎么管理组件?node?集群怎么交付给业务用?组件版本怎么管?线上集群能不能保持一致版本?机器怎么流转?自愈怎么做?2023 深圳站集群视角-集群组&物理集群ClusterGroup/ZonePhysicalCluster1
4、/VDC物理集群:物理部署上相互独立的一组K8s 集群如何保持业务多机房容灾-集群组PhysicalCluster2/VDCPhysicalCluster3/VDCPhysicalCluster4/VDCnodenode.nodenode.nodenode.nodenode.ApiserverManagerScheduleretcdKubebrainGodel2023 深圳站集群视角逻辑集群ClusterGroup/ZonePhysicalCluster1/VDCPhysicalCluster2/VDCPhysicalCluster3/VDCPhysicalCluster4/VDClogica
5、lCluster1/bussinesslogicalCluster2/bussinesslogicalCluster3/bussinesslogicalCluster4/bussinessKubeletContainerdnydusconsul-proxynodenodenodenodenodenodenodenodebernard如何保持业务隔离-逻辑集群2023 深圳站集群视角单元集群&逻辑单元ClusterGroup/ZonePhysicalCluster1/VDCPhysicalCluster2/VDCPhysicalCluster3/VDCPhysicalCluster4/VDClo
6、gicalCluster1/bussinesslogicalCluster2/bussinesslogicalCluster3/bussinesslogicalCluster4/bussinessnodenodenodenodenodenodenodenodenodenodenodenodenodenodeUnitCluster/PC*LC单元集群是每一块物理集群和逻辑集群的交集逻辑单元逻辑拆分单元集群logicUnitlogicUnitlogicUnit2023 深圳站组件视角Cluster1Cluster2Cluster3ApiServerv1v2v3managerv1v2v4schedu