3-酷家乐稳定性保障体系实践-酷家乐-谢科鸣(时升).pdf

编号:135144 PDF 38页 7.84MB 下载积分:VIP专享
下载报告请您先登录!

1、酷家乐线上稳定性保障体系实践讲 师:时升时升酷家乐技术支持专家稳定性委员会负责人负责技术支持团队,公司稳定性建设等相关工作。目录一问题和挑战二酷家乐稳定性工作思路三酷家乐稳定性建设实践四酷家乐稳定性保障体系总结五价值和经验总结酷家乐故障原因类型占比一.问题和挑战意识问题意识问题能力问题能力问题流程机制问流程机制问题题VS“大厂”稳定性能力对比大厂,如何做好稳定性工作?1.组织管理制定目标,“总监-研发经理-应用Owner/一线研发”的三级责任制。3.数据运营&文化建设2.流程建设4.系统&能力建设稳定性结果指标和关键过程指标。通晒数据,驱动改进,形成文化&氛围。流程先行,实践后指导系统能力建设

2、稳定性平台能力建设二.酷家乐稳定性工作思路三.酷家乐稳定性建设实践1.意识问题线上敬畏意识薄弱对警报/抖动等危险信号不够重视管理不重视研发管理团队不重视应用运维能力培养责任不清晰部分团队存在责任模糊的问题。授权职责:1.制定规范&流程2.监管,问责,追结果职责:1.线上应急处理2.稳定性建设&落地稳定性组织保障-三级责任制自上而下负责稳定性文化建设实践1.稳定性宣传3.稳定性奖4.惩:违反红线,绩效&通报2.稳定性培训&分享实际结果和价值:响应时间大幅缩短2.流程机制问题流程执行不到位1.故障应急时,各自为战,信息不通畅。2.复盘文档分析不深入,改进措施无法避免再次发生。机制不完善缺乏明确的制

3、度要求流程建设实践以应急流程为切入点2.关键词:响应,判断,通告,拉群,升级,解决,验证1.SRE值守&业务线值班长机制流程管理机制和指标建设流程owner对流程结果负责从CTO自上而下为结果负责稳定性奖项红黑榜稳定性月报红线&通报故障处理流程故障等级定义规范值班长制度规范2.稳定性流程规范故障处理流程故障等级定义规范稳定性委员会SRE&运维1.组织管理测试架构技术支持值班长业务线TO故障分恢复时长监控发现率复盘分3.稳定性目标&指标4.稳定性文化故障复盘规范变更管理规范封网流程规范演练规范意识&流程机制建设概况3.能力问题:告警治理能力应急能力变更管控能力高P告警定位&治理。告警&巡检跟进闭

4、环。应急协同&规范。全链路监控辅助定位。应急改进闭环。多变更系统,高变更频率下,有序管控。故障时,快速辅助定位到对应变更,快速回滚。3.1 能力问题告警治理能力:高P告警数量多平均每天180+高P告警系统处于亚健康状态。告警&巡检跟进不彻底部分产生告警&巡检的问题没有彻底跟进解决,成为隐患。提前发现和解决在告警发生时,需要主动提前发现和快速解决,避免因处理不及时导致故障。监控值守&巡检闭环04监控优化监控值守02巡检0301每日报告监控持续优化全链路业务监控建设监控诊断定位告警问题根治稳定性值班日报每日汇总高P告警情况重点警告概述&分析线上业务量观察7*24小时监控值守高P监控告警拉起应急提前

5、发现&解决隐患事件复盘&改进巡检任务跟进云服务器,中间件,网络,应用等每日巡检自动创建任务跟进稳定性值班日报实际结果和价值:高P告警持续下降应急协同分工不明确,不知道应急的时候应该做什么。信息同步故障期间,各群内消息乱,易漏掉关键信息复盘管理故障复盘信息散落在各个文档action无系统跟进。3.2 能力问题应急能力:故障管理平台建设应急响应 一键拉群&一键外呼 故障通告信息&同步 明确角色分工,责任到人故障管理平台建设故障复盘&改进管理 故障复盘数据统一录入系统 关键信息形成数据分析报告 action进入迭代任务,形成闭环全链路业务监控能力变更数量多平均每天350+变更量变更范围广涉及到12+

6、变更系统,包括发布,配置,数据变更,运维操作等定位变更难故障时,无法快速定位到对应变更,无法快速准确的回滚。3.3 能力问题变更管控能力:实践:变更管控平台展示变更和监控,巡检,故障应急,封网能力建设实际结果和价值:违反流程故障数持续下降故障演练能力建设为什么要做故障演练?演练平台建设沉淀通用故障场景,低成本故障重现,常态化演练&推动系统、工具、流程、人员能力的提升。演练比赛活动运营1.前期准备 故障演练场景设计 活动方案制定 宣传和预热Step 01Step 03Step

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(3-酷家乐稳定性保障体系实践-酷家乐-谢科鸣(时升).pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠