1、SRESRE效能体系建设的实践与反思效能体系建设的实践与反思2023 深圳站刘昊刘昊2017年加入B站,先后负责运营研发、中间件和SRE体系等团队,构建落地B站统一作业&流程&鉴权服务,主导数据库&缓存相关中间件的自研落地目前专注于SRE体系化、产品化的规划建设和落地实践技术领域:SRE、中间件、运维、运维研发、云原生、平台工程社区:中国SRE联盟社区华东区负责人、中关村人才协会-SRE专委会委员、TAKINTALKS专家团成员哔哩哔哩 SRE体系负责人2023 深圳站目录目录CONTENTSSRE效能的外患与内忧1 从琐事消减看SRE效能体系设计2 基于OnCall的协同化提效3 基于流程&
2、作业的自助化提效4 总结与反思5 2023 深圳站S R ES R E 效 能 的 外 患效 能 的 外 患行 业 寒 冬行 业 寒 冬谷 歌 之 道谷 歌 之 道异 军 突 起异 军 突 起2022年以来,多重利空因素下经济下行压力大,国内B端和C端的需求疲软,这对互联网行业来说更是雪上加霜,因而2022年1-8月国内互联网业务规模同比出现负值,行业增长陷入停滞。企业持续控制人力成本,在技术团队侧,SRE与研发的对比数越拉越大。Google SRE运维之道书籍指出,SRE团队中50%-60%是标准的软件工程师,其他40-50%是基本满足软件工程师标准的人。Google为整个SRE团队所做的所
3、有传统运维工作设定了50%的上限值,必须将50%的精力花在真实的开发工作上。受到DevOps成功推动跨职能合作的启发,平台工程也开始在企业中作为明确的协作形式而涌现。平台所提供的基础能力、框架和经验,提供便利并加速着内部用户的工作。特别是在云计算方面,“平台”已经帮助企业实现了云计算长期承诺的价值:如快速产品发布、更安全更弹性的产品,以及更高的开发者生产力。2023 深圳站S R ES R E 效 能 的 内 忧效 能 的 内 忧持 续 增 多 的 琐 事持 续 增 多 的 琐 事企业的经营多样化和业务多向探索,致使业务线的种类繁多。各业务特性差异大、场景众多,数量庞大,靠人力难以收敛常态化的
4、琐事需求。在单一业务下,随着云原生、微服务的推行,业务应用的扇入扇出带来了服务数量规模和接口调用范围的大爆炸,进一步提升了SRE的运营复杂度和成本。难 以 对 标 的难 以 对 标 的 能 力能 力在国内SRE实践中,80%的SRE团队均由企业现存的运维团队转型而来。SRE成员在研发侧的能力积淀有限,难以完成大型自动化和稳定性项目的设计和研发工作。相比业务团队的多职能、明细化分工,运维、SRE团队本质也是独立业务领域,缺少专业的产品、运维、测试等职能成员。从手工-平台-产品,跨度太大,兼顾不下,单纯运维/SRE团队难以支撑专业业务领域的平台化建设要求。2023 深圳站目录目录CONTENTS1
5、 2 3 4 5 SRE效能的外患与内忧从琐事消减看SRE效能体系设计基于OnCall的协同化提效基于流程&作业的自助化提效总结与反思2023 深圳站琐事的定义琐事的定义:运维服务中手动型的,重复性的,可以被自动化的,战术性,没有持久价值的工作,并且琐事与服务量级成线性关系的增长特征特征 :低风险低压力手动性:运行脚本清理日志重复性的:清理/tmp文件夹可以被自动化:按照SOP手动操作战术性的:大量常态的基础性告警没有持久价值:数据迁移与服务同步线性增长:故障磁盘报修对于任何管理生产服务的团队来说,琐事似乎是不可避免的。对于任何管理生产服务的团队来说,琐事似乎是不可避免的。琐 事琐 事 的 定
6、 义的 定 义2023 深圳站琐 事 的 利 弊琐 事 的 利 弊价值价值 低风险低压力 当量不大时,已知的和重复的工作可以带来满足和快速胜利感,让人平静 持续开荒有风险,琐事可以保平安,没功劳也有苦劳危害危害 个人个人 职业停滞:琐事难以带来思考和反思总结,没有时间学习新知识 士气低落:过多的琐事会过度劳累、厌倦和不满 进展缓慢:忙于人工、救火,新产出会变慢 错误变多:人工处理导致更多小错误 违反承诺:新入职员工或新转入SRE感觉被欺骗 组织组织 降低团队ROI:人人琐事缠身,难有精力聚焦有价值结果,难以提升团队业绩产出 造成误解:导致岗位格调不高,破坏工程组织定位 开创先例:角色分工是平衡