《4-7 徐新龙-运维数据价值提升-基于SLO健康度体系探索与实践.pdf》由会员分享,可在线阅读,更多相关《4-7 徐新龙-运维数据价值提升-基于SLO健康度体系探索与实践.pdf(63页珍藏版)》请在三个皮匠报告上搜索。
1、基于SLO健康度体系探索与实践演讲人:徐新龙运维数据价值提升个人简介蚂蚁集团基础设施团队SRE技术专家毕业于复旦大学信号处理方向从事关于SLO的健康度体系建设,以及异常检测、故障定位、预案推荐等场景下的AIOps实践曾就职于携程技术保障中心,负责AIOps的实践探索和落地在人工智能技术结合运维场景的实践方面有丰富的经验和深入研究徐新龙SLO介绍为什么需要SLOSLO健康度体系如何利用SLO构建系统的健康度AIOps赋能SLO和智能化的结合实践案例基于SLO的实际运维场景介绍CONTENT目 录SLO介绍似曾相识的经历调度器队列有增长,怀疑请求容量有激增Day 0 17:00增大重试时间间隔Da
2、y 0 18:00重启调度器后仍无好转Day 0 20:00调度器性能分析Day 0 23:00定位到调度器的资源变更Day 1 11:00集群状态:服役中服役中集群规模:11K 节点,450K pods集群用途:核心生产业务调度器资源优化Day-5 17:00排查认为是低优先级的容器Day-4 15:00调度器“带病”工作Day-4 Day 0用户开始反馈Day 0 15:00集群状态:服役中服役中集群规模:11K 节点,450K pods集群用途:核心生产业务交付成功率下跌告警Day 0 20:00交付成功率下跌告警Day-4 14:00经典思路-故障驱动事前变更管控事中应急流程事后监控覆
3、盖#SOP#限流#容量伸缩#沉淀专家经验#混沌攻击#注册#审批#过程式潜在问题:EDAEvent-driven ArchitectureK8S主导的Operator体系正在削弱过程式变更的影响力潜在问题:非云-云多样性多样性掌控力掌控力潜在问题:协同Dev vs SRE or Dev+SRE or 平台工程师SLO驱动改被动为主动改被动为主动常用常用SLI含义含义时效性时效性(Latency)任何因果系统不可避免的具有延时,用来衡量和反映系统提供服务的速度快慢可用率可用率(Availability)在时间片维度上反映系统提供服务的能力成功率成功率(Success Ratio)基于服务次数反映系
4、统提供服务的能力吞吐量吞吐量(QPS)实际系统都存在能力上限,对于能够提供或输出服务次数有所要求正确率正确率(Correctness)系统能够正确提供服务的能力,常用于资金核验校对等Service Level Indicator一个可以连续量化的指标,用来反映一个应用或者服务在某一个维度上提供的服务等级。SLIService Level Objective服务等级目标,是对服务能力预期的声明。明确服务目标一致的客户体验平衡效率与稳定性改善用户沟通SLO可用性目标可用性目标周周月月季季年年99%100 min7.2 hours21.8 hours87.6 hours99.9%10 min43.2
5、 min2.18 hours8.76 hours99.99%1 min4.32 min13.1 min52.6 min99.999%6 sec26 sec1.31 min5.26 min99.9999%0.6 sec2.6 sec7.86 sec31.5 sec以可用性目标为例,意味着可以接受的宕机或者不可用时长必须满足以下承诺Service Level Agreement基于目标达成或失败的奖惩机制SLASLA模版建设高价值数据资产原始数据vs.精加工数据聚焦注意力对齐目标减少告警主动+被动式发现驱动SRE日常简化通晒数据可被借鉴的最佳实践传统的传统的Metric监控监控监控实体太多,难以关
6、注到核心对象Metric太多,注意力容易失焦告警量大、告警频繁,疲于应对、容易麻木通过告警被动式的发现异常和故障SRE和研发缺少基于共同目标的沟通机制缺少相对统一的框架和实践驱动SRE工作不能形成可被借鉴、可复制的治理模式提炼通晒数据困难、费力度高SLO健康度健康度建设高价值数据资产SLO健康度Kubernetes缓存缓存中间件中间件应用网关应用网关PaaS数据平台数据平台基础设施域存在众多的异构系统背景+现状基于SLO健康度的架构体系SLOSLOSLOSLOSLOSLOSLO数据流record:pod_creation_request_total_count:delta1m expr:sum