当前位置:首页 > 报告详情

3-刘昊-SRE效能体系建设的实践与反思.pdf

上传人: 2*** 编号:151961 2024-01-05 49页 29.91MB

1、SRESRE效能体系建设的实践与反思效能体系建设的实践与反思2023 深圳站刘昊刘昊2017年加入B站,先后负责运营研发、中间件和SRE体系等团队,构建落地B站统一作业&流程&鉴权服务,主导数据库&缓存相关中间件的自研落地目前专注于SRE体系化、产品化的规划建设和落地实践技术领域:SRE、中间件、运维、运维研发、云原生、平台工程社区:中国SRE联盟社区华东区负责人、中关村人才协会-SRE专委会委员、TAKINTALKS专家团成员哔哩哔哩 SRE体系负责人2023 深圳站目录目录CONTENTSSRE效能的外患与内忧1 从琐事消减看SRE效能体系设计2 基于OnCall的协同化提效3 基于流程&

2、作业的自助化提效4 总结与反思5 2023 深圳站S R ES R E 效 能 的 外 患效 能 的 外 患行 业 寒 冬行 业 寒 冬谷 歌 之 道谷 歌 之 道异 军 突 起异 军 突 起2022年以来,多重利空因素下经济下行压力大,国内B端和C端的需求疲软,这对互联网行业来说更是雪上加霜,因而2022年1-8月国内互联网业务规模同比出现负值,行业增长陷入停滞。企业持续控制人力成本,在技术团队侧,SRE与研发的对比数越拉越大。Google SRE运维之道书籍指出,SRE团队中50%-60%是标准的软件工程师,其他40-50%是基本满足软件工程师标准的人。Google为整个SRE团队所做的所

3、有传统运维工作设定了50%的上限值,必须将50%的精力花在真实的开发工作上。受到DevOps成功推动跨职能合作的启发,平台工程也开始在企业中作为明确的协作形式而涌现。平台所提供的基础能力、框架和经验,提供便利并加速着内部用户的工作。特别是在云计算方面,“平台”已经帮助企业实现了云计算长期承诺的价值:如快速产品发布、更安全更弹性的产品,以及更高的开发者生产力。2023 深圳站S R ES R E 效 能 的 内 忧效 能 的 内 忧持 续 增 多 的 琐 事持 续 增 多 的 琐 事企业的经营多样化和业务多向探索,致使业务线的种类繁多。各业务特性差异大、场景众多,数量庞大,靠人力难以收敛常态化的

4、琐事需求。在单一业务下,随着云原生、微服务的推行,业务应用的扇入扇出带来了服务数量规模和接口调用范围的大爆炸,进一步提升了SRE的运营复杂度和成本。难 以 对 标 的难 以 对 标 的 能 力能 力在国内SRE实践中,80%的SRE团队均由企业现存的运维团队转型而来。SRE成员在研发侧的能力积淀有限,难以完成大型自动化和稳定性项目的设计和研发工作。相比业务团队的多职能、明细化分工,运维、SRE团队本质也是独立业务领域,缺少专业的产品、运维、测试等职能成员。从手工-平台-产品,跨度太大,兼顾不下,单纯运维/SRE团队难以支撑专业业务领域的平台化建设要求。2023 深圳站目录目录CONTENTS1

5、 2 3 4 5 SRE效能的外患与内忧从琐事消减看SRE效能体系设计基于OnCall的协同化提效基于流程&作业的自助化提效总结与反思2023 深圳站琐事的定义琐事的定义:运维服务中手动型的,重复性的,可以被自动化的,战术性,没有持久价值的工作,并且琐事与服务量级成线性关系的增长特征特征 :低风险低压力手动性:运行脚本清理日志重复性的:清理/tmp文件夹可以被自动化:按照SOP手动操作战术性的:大量常态的基础性告警没有持久价值:数据迁移与服务同步线性增长:故障磁盘报修对于任何管理生产服务的团队来说,琐事似乎是不可避免的。对于任何管理生产服务的团队来说,琐事似乎是不可避免的。琐 事琐 事 的 定

6、 义的 定 义2023 深圳站琐 事 的 利 弊琐 事 的 利 弊价值价值 低风险低压力 当量不大时,已知的和重复的工作可以带来满足和快速胜利感,让人平静 持续开荒有风险,琐事可以保平安,没功劳也有苦劳危害危害 个人个人 职业停滞:琐事难以带来思考和反思总结,没有时间学习新知识 士气低落:过多的琐事会过度劳累、厌倦和不满 进展缓慢:忙于人工、救火,新产出会变慢 错误变多:人工处理导致更多小错误 违反承诺:新入职员工或新转入SRE感觉被欺骗 组织组织 降低团队ROI:人人琐事缠身,难有精力聚焦有价值结果,难以提升团队业绩产出 造成误解:导致岗位格调不高,破坏工程组织定位 开创先例:角色分工是平衡

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容概括如下: 1. 介绍了SRE效能的外患与内忧,包括行业寒冬、谷歌手法异军突起,以及SRE团队面临的持续增多琐事和难以对标的能力。 2. 提出了SRE效能体系设计思路,包括减少协同成本,系统级复用,团队职责边界清晰,加强细分场景覆盖,以及通道能力建设。 3. 详细阐述了基于OnCall的协同化提效,包括OnCall定义、现状问题、结构分析、最佳实践和系统关键模型。 4. 介绍了基于流程和作业的自助化提效,包括低代码工作流的价值、关键技术和覆盖场景,以及作业编排系统的建设。 5. 总结了SRE效能提升的实践与反思,包括尽快建立OnCall制度流程,人效提升依赖琐事减少,尽快建立人机的数据协同化,尽力控制和避免平台化带来的熵增,加快场景能力的建设交付效率和质量,对平台进行科学化的横向分层和纵向分类,明确团队的职责能力和职责边界,平衡供需,团队发力方向明确,提效提质,避免内卷内耗。
如何减少SRE团队中的琐事? 如何通过流程和作业提高SRE效能? 如何建立有效的OnCall协同机制?
客服
商务合作
小程序
服务号
折叠