《通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf》由会员分享,可在线阅读,更多相关《通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力姜继忠阿里云高级技术专家Contents目录01Kubernetes和故障排查02使用AIOps套件诊断K8S故障03托管节点池Kubernetes很简单一键部署应用kubectl apply f nginx.yamlKubernetes也很复杂架构复杂,概念多,学习曲线陡峭配置复杂,易出错生态庞大,涉及众多技术领域Kubernetes运维挑战16.8%24.8%31.9%37.7%48.0%缺乏必要的技能和人才企业IT组织架构和文化遗留系统兼容性问题安全合规问题平台提供方支持力度有限Kubernetes and cloud native
2、 operations report 2022排查故障是Kubernetes用户难以绕过的坎应用层异常和系统层异常业务内部异常K8S层面无异常需要开发人员排查分析应用日志、代码由于配置或其他原因所导致的K8S,OS等层面的异常由业务代码逻辑所导致的异常应用层异常系统层异常非业务代码问题K8S或者更底层的问题需要运维人员排查分析k8S配置、底层资源配置典型的故障排查流程识别问题分析原因查看日志、监控、事件、配置修改配置,观察恢复情况Pod无法启动?节点状态异常?应用网络不通?根据问题,基于经验判断导致问题的可能原因,对于Pod持续Pending问题,可能的原因包括集群没有资源、部署约束不合理、镜
3、像下载失败、网络分配失败等根据分析的可能原因,通过监控、日志进一步定位。定位到问题,修复后观测是否恢复故障排查的挑战技能门槛经验沉淀排查耗时通过AI实现自动化诊断Node云监控SLSKubernetes统一数据模型模块化采集采集数据源指标处理根因分析诊断类型接入Rule EngineKnowledge baseMachine Learning指标管理框架指标注册指标评估复杂指标预处理综合分析声明式规则外部接入持续优化ECS诊断vTrace用户评价知识沉淀诊断结果分析规则库维护问题排查标准流程Node诊断Pod诊断网络诊断容器智能运维CISOpenAPIIngress诊断内存诊断Service诊
4、断LLM容器服务AIOps套件Pod诊断节点诊断Ingress诊断网络诊断内存诊断Service诊断智能诊断云资源集群配置集群组件节点配置K8S API兼容性智能巡检资源配额资源水位组件版本证书集群风险分析集群检查专家知识+大模型容器服务ACK使用AIOps套件诊断K8S故障使用AIOps套件诊断K8S故障使用AIOps套件诊断K8S故障直接定位根因多种类型的检查项使用AIOps套件诊断K8S故障Pod诊断使用AIOps套件诊断K8S故障节点诊断使用AIOps套件诊断K8S故障内存诊断使用AIOps套件诊断K8S故障网络诊断已开源https:/ 覆盖完整的Linux协议栈的配置错误场景 支持诊
5、断多种云供应商的IaaS层网络错误配置深度网络监控 通过eBPF实现无侵入的Kernel Monitor 支持标准Prometheus接口暴露数据网络异常事件识别 数十种网络异常场景的自动分析识别 支持多种异常事件透出方式防患于未然系统无法访问,因为证书过期了!业务扩容失败,交换机IP耗尽!集群容器不足,但是扩容失败,因为路由表满了!使用了新版本废弃的API,集群升级之后业务挂了!智能巡检 定时自动运行 每周巡检报告,支持订阅 自动识别集群内潜在风险,防患于未然 包含5大类共40项检查,涵盖集群大部分故障类型全托管节点池Self Managed NodepoolManaged Nodepool
6、 ACK主动运维管理ACK管控 节点诊断和自愈 CVE安全问题自动修复 节点kubelet小版本自动升级 节点组件自动升级(containerd/systemd等)全托管节点池为ACK节点池提供自动化运维能力,降低用户节点管理负担,提升用户节点环境安全水位和可靠性。节点故障自愈。CVE自动修复。节点组件自动升级(规划中)。全托管节点池支持节点异常场景覆盖10+,包括DockerHung、ECS异常、kernel panic等。自愈成功率99%+。Node NotReadyDo