《2-王景学-腾讯大规模云原生降本实践之路.pdf》由会员分享,可在线阅读,更多相关《2-王景学-腾讯大规模云原生降本实践之路.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、腾讯大规模云原生降本实践之路王景学王景学腾讯云原SRE团队级运维程师,前主要负责腾讯云原容器产品的成本优化和稳定性作,实践公有云和内部业务的降本增效,保障其可性、稳定性和容灾演练等云原降本-FinOpsn 云原生降本:作为业务容器平台支撑侧,通过结合FinOps理念和云原生技术手段来辅助业务线进行降本工作开展n 适用性:本篇成本优化所实践的方法适用于Kubernetes集群的降本,普适性比较强n 业务规模:千万级核心n 困难和挑战:在不降低业务SLA前提下,提升资源效能,同时保障0故障目录CONTENTS!#$%&()!#$%&()01 *+,-*+,-Roadmap02 *+,-./01*+
2、,-./0103 234567892345678904 +,:;=+,:;?A?A06 6云原降本-现状和原因分析 装箱率低,利用率低,冗余度高,部署密度低u 小核心会比大核心优惠u 包年包月CVM相比按量计费有更低优惠解决方案:云原生降本节点装箱率达不到预期分配率很高,利用率较低p 组件资源占用和实际使用不匹配,缺少超分:大部分workload资源request申请量远大于当前实际使用资源 单核成本高(计费角度)p【机型/机型规格】节点池规格不合适:受ENI限制,节点规格在部署满了ENI以后,资源仍有较大冗余,装箱率未达预期 受节点pod数量上限限制,节点部署满了以后,资源仍有较大冗余,装箱
3、率未达预期p 三可用区容灾:集群至少要预留1/3的装箱率资源,应对单可用区故障p 大规格集群:为了应对业务突发和提升集群稳定,大规格workoad资源request配置冗余较大,装箱率较高,实际利用率较低,无法达到预期目标利用率云原降本-RoadMap降本理念:重要前提就是稳定性优先,在提升资源效能同时保障降本理念:重要前提就是稳定性优先,在提升资源效能同时保障0故障故障,同时不降低业务同时不降低业务/集群集群SLASLA稳定性成本两手都要抓云原降本-技术原理 降本具集:u autopilot是内部阶定制版本,应于特定业务,内部成功实践经验也会输出到Craneu Crane是开源版本,内部也在
4、量应功能点kmetiscrane降本作用request推荐YESYES解决业务Pod Request与实际使用值差异较大的问题EVPAYESNO根据预测及时扩缩容pod规格,降低OOM频次EHPAYESYES根据预测提前扩容,减少无效缩容,避免突发雪崩重调度YESYES负载感知驱逐动态调度YESYES负载感知防御节点放大YESYES压榨节点利用率,降低无效冗余,提升利用率cronHPAYESYES解决周期性、活动性特点业务扩容在离线混部NOYES解决潮汐效应,错峰部署节点自愈YESYES解决节点异常自动恢复能力CANONO解决节点弹性扩容提升部署密度/装箱率1云原降本-autopilot资源压
5、缩+EVPA+EHPA应Workload 的资源推荐p不会配,Request 到底应该配多少?p不敢调,到底什么时候该调成多少?p固定的数值,而实际业务负载是波动的p冗余的配置,导致空闲时资源浪费p效率低,Pod oom无法自动扩容机制监控,Request 基于业务实际历史用量实时更新,根据历史实际负载动态调整推荐值自定义,根据业务优先级自定义参数安全,基于历史用量和目标利用率高效,无人值守,故障自愈问题核心特性 Autopilot:集资源推荐+EVPA+EHPA 一体的弹性扩缩容与故障自愈服务空运行小范围灰度大规模扩缩容节点回收支持dryrun=true方式空运行校验预测数据准确和有效性,输
6、出预测优化效果针对workload 预测数据选择合适节点池规格,确保资源可以装满节点大规模下的autopilot工具性能评估优化成本可观测性建设Pod VPA/HPA按照比例进行扩缩容,限制并发度Pod VPA触发使用滚动更新方式,非evict方式VPA/HPA遵循快速扩容,缓慢缩容节点高负载监测和自愈白名单支持,过滤系统组件和敏感组件pod VPA/HPA 自适应限速,限制并发度,避免导致apiserver oomPod VPA针对workload增加一定的安全阈值Pod大规模重建调度性能优化Pod大规模重建引发的内核bug,kubeletbug等修复集群紧缩优先调度算法,以便空闲出更多节点