当前位置:首页 > 报告详情

张观石-SRE体系-快速修复一个故障的套路.pdf

上传人: 2*** 编号:122107 2023-04-04 35页 3.22MB

报告标签

SRE体系
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了SRE(Site Reliability Engineering)体系在快速修复故障方面的套路和原则。作者张观石,拥有20年资深运维专家和架构师经验,熟悉微服务架构下的直播、音视频业务稳定保障,是信通院分布式系统稳定性实验室高级技术专家。文章指出,快速修复故障需要系统可被修复的设计,如可观测性、预案、变更管控等;涉及人员众多时,需要良好的组织协同;修复过程难以自动化,需要多方面能力协同。文章提出了故障修复的难点和关键点,包括系统复杂性、人员协同、预案执行等,并给出了一些故障案例和应对之道。最后,强调了故障修复的工程化设计,以及研发、架构部门共同建设的重要性。
"如何构建高效的SRE故障修复体系?" 如何成为资深运维专家?" 揭秘混合云架构秘诀!"
客服
商务合作
小程序
服务号
折叠