《陈刚-行稳致远!五问金融企业SRE稳定性建设核心秘密.pdf》由会员分享,可在线阅读,更多相关《陈刚-行稳致远!五问金融企业SRE稳定性建设核心秘密.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站行稳致远!五问金融企业SRE稳定性建设核心秘密陈刚 高效运维社区华佑高级咨询师,超过20年IT职位生涯,聚焦于技术运营及运维全领域。工作遍及电信,日本软件开发企业,美国电商公司,国内头部金融企业,10年以上运维团队管理经验。使用Python,Js,Go,Java等语言开发过各种IT应用。技术领域涵盖持续交付流水线,技术运营,K8s容器化集群技术转型和AI项目运维。已出版多本持续交付类书籍,GOPS 2018全球运维大会(2018深圳站)专题讲师。01一问:影响稳定性的罪魁祸首有哪些?02二问:稳定性建设从哪里切入?03三
2、问:SLO如何与可观测能力打通?04四问:SRE实践中如何协同故障应急?目录Content05五问:如何系统化建设SRE稳定性能力?01一问:影响稳定性的罪魁祸首有哪些?2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站1-1 故障不可避免2021年2月2021年 10月2021年10月2021年11月2022年10月2023年1月2021年11月,某网上银行服务开始出现大规模中断,遭到数千名客户投诉,而在11月24日紧急恢复服务几小时后再次遭遇中断。一次大规模中断导致Facebook、WhatsApp、Messenger、Instagram 和Oculus VR 瘫痪
3、将近五个小时!在这五个小时内,没有人可以使用这些产品中的任何一种。香港金管局转数快系统原定凌晨至早上7时45分进行系统维护,最终延至下午1时才能恢复服务。美国联邦储备委员会周三称,一个未具体指明的错误导致其所有金融服务系统中断,这起非同寻常的事件造成银行、企业和政府机构使用的关键支付系统瘫痪了数小时,包括自动清算所系统FedACH等十余项美联储业务受到影响。美国联邦航空管理局(FAA)由于定期维护失败导致 32,578 次航班延误,另有 409 次航班一起取消。不用说,货币影响是巨大的。许多美国航空公司的股价随即暴跌。与亚马逊搜索问题相对应的事件影响了全球至少 20%的用户几乎一整天。自然灾害
4、地震、台风、雷击自然灾害地震、台风、雷击断电/断网光纤被挖断人为操作失误配置错误、应用发布失败等等硬件故障网络设备出故障,机房/集群影响网络攻击DDOS等网络攻击2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站1-2 当代IT系统的典型特征大规模、分布式-从传统的单体式系统架构向分布式架构演进,系统规模快速增长高频变更-大量新业务上线,各种和业务相关的线上促销活动,都带来了高频的变更需求技术栈复杂-随着开源工具发展,各种操作系统、应用中间件,虚拟化平台等领域新技术导出不穷大流量、高并发-随着移动互联网的飞速发展,用户体量扩张,高并发压力增大现代IT系统2023 Dev
5、Ops 国际峰会 暨 BizDevOps 企业峰会 北京站1-3 影响稳定性的主要因素生产变更,容量不足,解决故障的快慢没有变更就没有伤害SRE的经验表明,大概70%的生产事故由某种部署的变更而触发变更风险最为常见的也是频率多就是变更带来的故障,日常变更多导致了各种各样的故障。容量风险流量突然增加导致的故障。相对较少,但是影响是全局的,比如重大一些活动,微博的一些热点事情,都是容量和流量的变化导致的故障和影响。基础设施风险基础设施,比如网络/IDC/DNS等等这些的故障,这种故障一般非常少,但是影响是非常重大的。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站1-3-
6、1 变更与发布控制 建立后台发布流程 短链路的变更周知与评估 专人跟进流程严格执行 配置化改造,收敛发布量、灰度和回滚、测试验收 事件分类与事后跟进 部署工具收口 度量建立奖惩,持续改进 变更影响分析 配置管理,信息和平台化 变更的统一管理 技术委员会评审重大变更 变更质量和效率考核变更申请变更审批发布部署发布验证变更回顾计划排期变更管理变更管理配置管理影响评估发布管理后台发布变更周知度量改进2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站1-3-2 容量管理实践容量日常监控触发容量预警运维分析告警优化容量配置基础设施采购与划分更新系统成本常态化压测更新容量基线定期容