1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站B站SRE转型历程与可靠性工程实践武安闯 哔哩哔哩/SRE负责人对SRE高可用架构、技术风险体系建设、质量运营和组织转型有深刻的建设实践和思考主导B站SRE转型、高可用架构、故障快恢、SLO工程、容量管理体系、多活容灾等专项从0到1带领B站运维向SRE转型,建设B站可靠性体系当前专注SRE可靠性体系规划建设和落地实践01什么是SRE传统运维与Google SRE的区别02SRE转型的保驾护航人、组织、制度为SRE转型保驾护航03SRE可靠性框架高可用架构、技术风险、质量运营04可靠性工程实践多活容灾、SLO、故障快恢1-
2、5-10目录Content01什么是SRE传统运维与Google SRE的区别2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站什么是SRESRE 站可靠性程师 SRE最早是由Google提出 软件程的思维和法论,通过设计和动化来取代操作 解决的问题 团队与系统负载成线性增 研发变更效率与运维服务稳定性的盾团队特点 50%-60%是标准的软件程师 40%-50%基本满软件程师标准,但具备定的其他技能(Unix内部细节和络知识)SRE团队把50%的精于开发作 SRE成功的关键在于对程的关注2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站SRE讲了
3、什么SRE基础认知团队管理和作模式 SRE团队转型、SRE参与模型、协作沟通 SRE琐事优化、中断管理拥抱程、拥抱开发 重视程、运维动化 50%参与开发SLO程 SLI度量、SLO程、报警、运营SRE常Oncall可 关注系统可能和架构设计故障命周期管理2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站SRE与传统运维&DevOPS的区别OPS被动质量、变更效率DevOPSCI/CD研发交付效率CMDB、变更、中间件运维变更效率堡垒机、作业、审批具建设志、监控、告警可观测效率提升、具平台资源交付、配置变更异常处理、问题排查运维标准化、监控告警被动响应,应急事务处理SRE
4、CA(L)MS化(Culture)动化(Automation)精益(Lean)测量(Measurement)分享(Sharing)DevOps是套松散的实践,指南和化,旨在打破IT开发,运维,络和安全的孤平台工程将DevOps看作种哲学和作法SRE实现了DevOps描述的些哲学“DevOps程师”更接近于这个作或的定义SRE类实现了DevOps接工程、质量、效率可性延迟性能效率变更管理监控应急响应容量规划软件程的思维和法论,通过设计和动化来取代操作SRE团队把50%的精于开发作SRE成功的关键在于对程的关注02SRE转型中保驾护航人、组织、制度为SRE转型保驾护航2023 DevOps 国际峰
5、会 暨 BizDevOps 企业峰会 北京站与维护服务相关的,重复的、可预测的、持续的任务流动性重复性可以被动化技术性没有持续的价值与服务同步增琐事类型流程/单问询、沟通中断服务迁移、变更压缩成本和容量规划问题/故障排查处理琐事优化 给SRE转型的时间法彻底消失寻求平衡有事才有琐事50%时间开发ABC琐事永远存在100%的SLO不存在初级琐事识别、动化、平台化源头消除、SLO、Oncall轮值中 级效提升(能、时间)、组织转移(NOC/技术持)级没有时间,转型SRE就是异想天开2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站Oncall轮值全员Oncall轮岗程+BP
6、+部分Oncall轮岗程+BP+云原架构+技术持全员SRE直播Oncall主站Oncall.程轮岗程SRE直播Oncall主站Oncall.BP SREOncall SRE全职程推荐搜索程SREBP SRE云原架构全职程推荐搜索技术持架构优化险跟进质量运营Oncall释放转型程开发和治理 程轮岗导致程效率低下 专项事宜难推动 技术差异性,全员Oncall不深程稳步迭代、专项持续推进重运维业务专项BP,其他业务Oncall 更多转型程开发 vs 依旧较多的中断中断和Oncall左移技术持,SRE全员转型SRE只专注开发运营与可靠性程 标准化Oncall和中断,SOP技术持承接 更专业和全职的技术