《张观石-SRE体系-快速修复一个故障的套路.pdf》由会员分享,可在线阅读,更多相关《张观石-SRE体系-快速修复一个故障的套路.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、1SRE体系:快速修复故障的套路张观石 SRE原理与实践作者 资深运维专家和架构师,拥有20年经验;熟悉基于微服务架构的直播业务、音视频业务、海外直播业务的稳定的保障体系。熟悉混合多云架构、可观测性、预案、变更管控、AIOps等领域;信通院分布式系统稳定性实验室高级技术专家,参与编写了信通院信息系统稳定性保障能力建设指南。21.读过的都说好“可用于做SRE面试指南”“用于指导实际项目开展”,读了3遍 送朋友、送客户、送同事2.内容特点 SRE工程体系完整 先进实战案例丰富3案例:3个惨案现场快速修复故障的基本套路套路有多深:掌握故障规律怎么看套路成效45故障案例1 背景:数据库M-S架构,正常
2、主从是同步的。故障描述:某天发现主从不同步了。处理方法1:在修复同步问题时无意中删除了一个文件,DBA用了另外一个备份文件去替代。看起来是一样的文件,然后重启数据库。结果:结果数据库系统启动不起来。62023年1月12日 美国FAA NOTAM系统故障,全美12000个航班被延误或取消故障案例2 背景:机房冷机4主+4备的架构,主机故障可以手工切备机。故障描述:冷却系统缺水,导致4台主冷机服务异常。处理预案1:冷机切到备机系统,发现缺水形成了气阻,备用冷机启动失败。处理方法2:尝试一台台启动,阻力更小 结果:启动不起来,发现冷机设计为4台绑定一起重启,目的是为了批量操作方便。紧急处理:只能远程
3、与现场合作临时改代码逻辑、发布,解除群控逻辑。7某公有云AZ制冷故障,持续13小时故障案例3 背景:业务产品和管控系统都在A、B。两机房容灾部署 故障:机房A挂了,大量迁移到机房B,用户集中迁移业务导致管控系统的并发增加,被限流;预案:给管控系统扩容资源 问题:增加容量的管控系统的一个中间件被部署在故障机房A,扩容操作失败8某公有云AZ制冷故障,持续13小时简单故障场景49服务器磁盘被写满了,处理需要几步,需要多长时间复杂故障场景5 直播平台大活动期间卡顿率上升1%101.怎么排查是哪部分、2.怎么定位是什么原因,什么维度3.怎么修复故障修复的难点在哪?11系统复杂性系统复杂、故障场景多、脆弱
4、性因素多,防不胜防;案例涉及人员众多涉及到众多人员、没有组织协同则混乱出错;有时10几个团队人一起参与问题处理,指挥混乱、信息混乱一个故障影响机房数百个产品和上千个系统修复过程难所用到的各方面能力,任何一环不能掉链子,以为有预案,关键时刻不工作。发现难、定位难、修复难案例:快速修复故障的基本套路设计、预案、应急12针对故障因素/场景设计修复方案专门的修复工具,并打通依赖工具有效的修复方案和工具有接收故障,并执行处理的高效流程,预备资源,人的应急协同有力保障能力:资源、人与流程系统可被修系统做了可被修复的设计可感知、无状态、可切换/调度/容错/降级13可被修复的架构设计 设计便于修复的软硬件架构
5、 系统是可修复的(针对特定的故障场景已经有相应的修复设计)能自愈的尽量容灾自愈,不能自愈必须暴露接口 可修复的架构原则,架构风险治理 标准化、无状态的软件架构 多副本冗余的设计 被隔离迁移、调度切换的能力14故障场景、故障影响、预案是什么、故障预计修复时长问研发:能不能把调度功能开放给运维?各系统可被修复的架构设计&暴露API15节点屏蔽/删除服务组扩缩容变更系统回滚业务降级 微服务后台接入服务切换路由切换接入中台自定义脚本任务脚本运维通道节点屏蔽/删除服务组扩容/缩容名字服务直播间下行流屏蔽切换线路切换档位主播切换上行线路音视频自定义api接入基于事件消费的预案任务执行机制监控内嵌查询基于指
6、标的判断功能文档功能IM人功能统一告警通知功能通用功能架构与预案结合16运维类操作、业务服务类操作预案及预案系统17 有修复的工具及其依赖的工具 有修复的人、及时协作,快速修复高效执行,有力保障:预案不一定很复杂1、问题本质原因:问题/故障解决依赖人的知识经验2、核心要解决的:如何将处理经验通过技术手段固化成一个个可以被直接可执行的预案场景18 01人员保障协作排查、修复、指挥协同、发言 02运维资源保障紧急扩容资源支撑工具 03流程与制度保障定期演练19一键到达:根因推荐与预案关联20预案来源21123通过技术分析、风险识别发现的潜在故障场景演练发现的