当前位置:首页 > 报告详情

a-story-of-managing-kubernetes-watch-events-end-to-end-flow-in-extremely-large-clusters-nanomao-zhong-shi-fa-lia-kubernetes-watchguo-guo-xiao-zha-bo-tang-ant-group.pdf

上传人: 山海 编号:627236 2025-04-21 26页 5.69MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了在大型 Kubernetes 集群中优化 WatchEvents 的端到端流程。作者 Bo Tang,来自蚂蚁集团,在文章中概述了 Kubernetes 的监听机制及其在集群中的重要性,定义了监控服务级别目标(Watch SLO),并分享了他们为优化监控流程所采取的措施及获得的效益。 关键数据包括:将 etcd 到 apiserver 的监控缓存时间从 3 秒降低到 100 毫秒级,将监控事件从进入 apiserver 到离开 apiserver 的时间从 5 秒降低到 500 毫秒级。通过优化,P95 情况下部署 1000 个 Pod 的时间从 34.43 秒减少到 14.05 秒,网络带宽也从 20GB 降低到平均 7.5GB。 文章详细介绍了 Watch 机制、Watch SLO 的优化摘要、Kubernetes 的概述、优化的具体措施,包括数据结构改进、减少锁争用、计算和数据减少、异步计算、带宽减少和适当的缓存等,以及他们如何针对自定义控制器运行时进行优化,如何减少 apiserver 流量,以及如何调整监控缓存大小等。 最后,作者指出仍有问题需要解决,如客户端 CPU 减少、客户端代码中锁争用的减少、apiserver 监控缓存的使用、客户端的正确使用、etcd 监控保障、流量测量和分析以及包含更高版本 Kubernetes 功能的优化等,并展望了未来的工作。
"K8s集群大规模应用挑战" "如何优化Kubernetes的Watch机制?" "大型K8s集群监控优化实践"
客服
商务合作
小程序
服务号
折叠