1、孙磊 字节跳动云原生架构师字节跳动云原生资源效能实践GCOS 2023 全球云原生及开源峰会主要负责云原生资源效能方向,在云原生,混部,容器底座方面有深入的研究和实践,目前专注于云原生资源效能提升。孙磊字节跳动云原生架构师字节跳动云原生架构师个人简介GCOS 2023 全球云原生及开源峰会1324目录字节跳动的降本增效实践如何构建一个资源效能矩阵Katalyst的开源进展未来演进方向与展望0103040102字节跳动的降本增效实践添加简介GCOS 2023 全球云原生及开源峰会字节跳动云原生发展之路拥有100,000+在线微服务敏捷化构建能力持续增强平均每日变更数高达30,000次云原生为前线
2、业务提供稳定性保障离线任务数140 M+通过云原生混部大规模节省企业资源成本节点数900,000+最大集群节点数上万实现大规模集群落地现有500+生产集群基础设施深度云原生化TCE 为内部应用提供快捷高效的应用部署方案TCE 启动建设2016完成核心业务微服务迁移,并在 TCE 之上构建服务框架、Mesh、监控告警等基础设施微服务架构2017把“推广搜”的物理机服务与在线服务进行全面融合,实现统一容器化调度“推广搜”云原生2019融合资源管理形态,简化供应链选型;优化运维效率,开启数据库、缓存等存储系统的云原生化改造离在线调度融合、存储云原生2020资源多云到应用多云,实现全场景应用编排和资源
3、管理的标准化和统一化KubeFedKubeAdmiral云原生联邦演进2021GCOS 2023 全球云原生及开源峰会字节跳动资源效能实践方法论洞察成本归属成本指标与报告成本预测优化资源利用率优化资源定价优化成本监控管控业务产品梳理业务资源需求进行业务发展规划申请年度预算资源交付可预期账单&成本归属准确决策层战略决策建立组织内部对云成本的共识财务采购下发账单&成本归属准确对成本支出有预期资源增长可预测采购成本交付周期技术资源利用率管理及提升收入查看及定价配置云产品使用管控提升代码效率运营建立经营管理体系成本分析&结构化分析业务指标关联分析成本异常分析推动成本优化建立TCO-TVO 降低资源成本
4、,提升成本意识,财务观念升级运营在工作流程中考虑成本度量成本投入对业务的产出GCOS 2023 全球云原生及开源峰会云原生资源效能体系指导思想降低单位算力成本提升单位算力效率降低新硬件采购成本存算分离多云比价,多种资源类型搭配通过技术手段用更少的资源部署更多的业务硬件卸载,应用拓扑调度GCOS 2023 全球云原生及开源峰会字节成本治理实践-降低单位资源算力成本新硬件供应链和硬件定制CPU、磁盘、网络定制数据中心能耗调度资源优化预留套餐按需购买自动扩容竞价实例,潮汐算力Serverless pod按需扩容,按量付费冷热存储 高密机型存算分离IDC 建设新技术节能维护成本降低GCOS 2023
5、全球云原生及开源峰会字节成本治理实践-提升单位资源效率提升峰值利用率应用画像资源超分规格推荐提升部署密度提升平均利用率Serverless潮汐混部在离线混部硬件卸载应用拓扑调度基础库优化提升有效利用率资源稳定性真实利用率调度重调度容器质量体系建设GCOS 2023 全球云原生及开源峰会效果:数据中心利用率 集群季度级利用率波动稳定在 60%-80%集群天级利用率稳定在 60%-80%机器天级利用率分布0203040102构建资源效能矩阵添加简介GCOS 2023 全球云原生及开源峰会资源效能能力构建云原生资源效能功能矩阵观测与画像负载/节点资源实时动态观测负载/节点资源画像单机隔离 QoS资源
6、超分在离线混部规格推荐与治理智能 HPA潮汐混部资源分类的计费系数计费项价格低优抢占型独占cpuset,且通过numa binding 达到算力增强的效果独占优化型资源分类对应现在的普通容器概念,使用超分和常态混部在线池共享型对应现在的常态混部使用BestEffort的任务,极端情况下,容器算力会被压缩或驱逐低优抢占型某些业务方定制的异构资源配比/异构硬件能力的机器定制型共享型优化型定制型大跨度价格区间GCOS 2023 全球云原生及开源峰会数据中心峰值利用率提升规格治理资源超分PodPodPodPodPodPodPodPodPodPodPodPodPod20%70%峰值资源利用率峰值资源利用