《“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践.pdf》由会员分享,可在线阅读,更多相关《“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践.pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、石鹏(东方德胜)石鹏(东方德胜)从业十余年,一直从事运维相关的工作。2016年加入美图公司,现任美图SRE负责人,目前整体负责美图公司线上服务的稳定性保障工作。曾多次参与或主导过美图公司多项基础设施、运维架构的调整和改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验积累和行业输出。致力于推广SRE、稳定性运营相关的理念及实践,编著有SRE系统建设指南图谱,参与过业界多个SRE、DevOps相关案例集/期刊/标准/白皮书的编纂或供稿。业界多个技术峰会的分享嘉宾、金牌讲师或出品人,SRE精英联盟成员。中国信通院稳定性保障实验室认证专家,应急工作组组长。讲师介绍高级运维经理你是否会“谈故障色
2、变”?遇到故障慌不慌?为什么?不慌会慌目录洞察本质,掌握规律体系建设,主动出击有章可循,有条不紊吃堑长智,举一反三或许是最后一次分享 AI含量超低的这个主题了 哈哈简介:深刻洞察故障的本质,分析和理解故障发生的规律。学习和总结稳定性保障相关的框架和方法,进而指导展开一系列的工作。SRE的核心职责 与 企业发展的关系稳定性成本效率+安全降本增效安全生产+让企业活着让企业获得优势构建大框架:可靠性工程全生命周期稳定性运营的全景图MTTKMTTIMTTFMTTVPre-MTBFPost-MTBF应急响应建设/演练/OnCall复盘/改进/OnCall故障预防灾备预案容量评估架构设计监控覆盖MTBFM
3、TTRMTBF持续交付故障发现故障定界/定位故障改进故障恢复故障复盘改进验收故障模拟混沌工程周边清查监控告警常规巡检用户反馈舆情感知智能预测日志分析监控分析链路跟踪场景复现根因定位故障隔离容灾切换服务限流服务降级异常熔断异常是常态 系统失效/异常的必然性 所有的干预手段都有代价为何会发生 单机故障 负载变化 人为错误常见的原因 配置变更 强依赖 时延增加 资源耗尽From:FaceBook Fail at Scale建立对故障的正确认识稳定性的度量&工作目标 我们的目标MTTIMTTKMTTVMTTFMTTR 平均恢复时间平均识别时间平均定位时间平均恢复时间平均验证时间MTTIMTTKMTTV
4、MTTFMTTR 平均恢复时间降低 细化MTTR常用度量指标:MTTR稳定性的度量&工作目标 如何达成目标MTTIMTTKMTTVMTTFMTTR 平均恢复时间平均识别时间平均定位时间平均恢复时间平均验证时间MTTIMTTKMTTVMTTF多管齐下工具赋能自动校验完备预案一键应急紧密协作常用度量指标:MTTR稳定性的度量&工作目标关于SLO的设立合理分级与差异化不同业务场景需要设置不同的SLO目标核心业务与非核心业务的SLO应区别对待用户体验关键路径应设置更高的SLO要求建立分级服务矩阵,明确各级别SLO边界与业务价值的联动机制SLO应与业务KPI建立明确的联系与映射关系量化SLO违规对业务影
5、响的具体损失建立SLO违规的快速响应与升级机制定期评估SLO对业务实际贡献,避免过度投入指标完善可衡量单一可用性指标不足以全面反映系统稳定性应结合延迟、成功率、吞吐量等多维度指标所有SLO必须是可量化、可监测的设立错误预算作为创新与稳定的平衡机制SLO文化与团队协作技术团队与业务团队共同参与SLO制定过程建立跨团队的SLO共识与责任共担机制SLO达成情况应作为团队OKR的重要指标持续改进SLO体系,适应业务发展与技术变化SLO两种常见的可用性定义方法这种方法关注服务在特定时间段内的运行状态,通常用于传统IT系统和基础设施服务。这种方法关注服务请求的成功率,更适合微服务架构和现代分布式系统,能更
6、准确反映用户体验。SRESRE实践白皮书实践白皮书白皮书中的大框架汇集了多家企业的内部优秀实践,推荐参考。故障全生命周期视角故障全生命周期视角故障前:稳定性建设、OnCall值守故障中:应急响应、故障恢复故障后:故障复盘、优化改进异常是常态异常是常态系统失效异常是自然规律,所有的干预手段都有代价。MTTRMTTR 细化拆解细化拆解MTTIMTTKMTTFMTTVSLOSLO 常见的两种定义常见的两种定义按照不可用时长按照异常请求占比简介:从被动应对到主动出击,体系化地推进稳定性建设。未雨绸缪 之体系化建设清单稳定性运营体系可观测性体系高可用体系应急体系OnCall轮值监控告警覆盖灾备体系建设应