刘凯宁-蚂蚁故障应急全流程体系构建及应用实践.pdf

编号:182390 PDF 34页 3.31MB 下载积分:VIP专享
下载报告请您先登录!

刘凯宁-蚂蚁故障应急全流程体系构建及应用实践.pdf

1、蚂蚁故障应急全流程体系构建蚂蚁故障应急全流程体系构建及应用实践及应用实践刘凯宁个人介绍刘凯宁 蚂蚁集团 SRE 技术专家 熟悉全链路技术风险防控方案,深度参与过容量、资源、压测、应急、变更、资金安全等领域的业务布防和能力建设 多次参与公司级超大型活动的稳定性保障,承担过大促保障队长、全链路压测负责人、全链路资源容量负责人、全链路资金安全保障负责人等角色Fix the ProblemFix the Problem,Not the Blame Not the Blame wechatwechat:mengqingmengqing-albertalbertdingdingdingding:liuka

2、ining2019liukaining2019稳定性灵魂三问线上故障到底是什么?线上故障到底是什么?谁应该为线上稳定性负责?谁应该为线上稳定性负责?如何评价应急到底做的好不好?如何评价应急到底做的好不好?目 录01蚂蚁故障体系介绍02蚂蚁应急体系介绍03一个线上故障的全生命周期04AI 助力,未来已来01蚂蚁故障体系介绍蚂蚁故障体系_故障定义在日常运营中,无论什么原因导致我们服务中断、服务品质下降或用户服务体验下降在日常运营中,无论什么原因导致我们服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户方环境或自身操作引起的问题的现象,称为故障,但不包括用户方环境或自身操作引起的

3、问题用户服务体验下降用户服务体验下降:故障的核心要关注用户感受,可通过客诉舆情获知用户投诉,也可以通过监控渠道主动推知用户端的使用情况。服务中断、服务品质下降服务中断、服务品质下降:即使没有用户投诉,没有多少用户使用,只要是蚂蚁集团提供的服务出了问题,都算故障。无论什么原因无论什么原因:无论是蚂蚁集团自身原因,还是第三方如供应商、运营商,或者蚂蚁集团调用了别人的服务出了问题,影响到用户,都是故障不包括的情况:用户方环境(没有联网等)或者自身操作引起短时间内有多位用户拨打 95188 支付宝客服热线反馈某页面无法打开是故障某次开发迭代不小心引入问题代码,导致某应用的异步消息积压,无法正常消费是故

4、障某运营商网络抖动,导致某日支付宝交易付款成功率同比昨日下跌 5%以上是故障用户反馈错过参加某次定时秒杀活动,导致没有抢到心仪的某联名款皮肤盲盒不是故障蚂蚁故障体系_故障等级故障等级是一套事先约定好的衡量故障影响度的标尺,数字越小,级别越高故障等级是一套事先约定好的衡量故障影响度的标尺,数字越小,级别越高 故障影响度涵盖哪些方面?如何使用?谁来定义?如何保鲜?客诉量资损金额受影响用户数数据错误量故障场景定义事事前前事事后后针对明确的业务故障场景,需要 100%监控覆盖,并接入 GOC 724 盯屏,及时发现异常触发应急止血作为标准,评价已经发生的故障等级,对影响多个产品线的故障,采用“就高原则

5、”进行最终定级GOC业务开发质量业务稳定性接口人SRE业务铁三角定定期期一般是每半年由 GOC 同学发起进行统一 review,不同业务逐次进行故障场景及等级修订,定稿后邮件公示随随时时有新业务或系统架构重大调整时,各业务可以按需随时拉起 review,定稿后邮件公示影响数量:J K M N 故障级别:P4 P3 P2 P1 JP4P3P2P1KMN数据错误量:数据错误量:P2P1M资损金额(理论):资损金额(理论):JP4P3P2P1KMN服务成本(客诉量):服务成本(客诉量):P5JP4P3P2P1KMN受影响用户量:受影响用户量:P5蚂蚁故障体系_故障序列故障序列是一套根据故障根因及实际

6、影响对故障进行分类的方式故障序列是一套根据故障根因及实际影响对故障进行分类的方式P PT TWWS SC C1 1-5 5-1010-3030监控发现率监控发现率根因定位能力根因定位能力ActionAction完结率完结率技术主要责任技术主要责任有实际业务影响有实际业务影响计入故障计入故障 QuotaGOC 复盘复盘指标纳入能力考察指标纳入能力考察试运行期不区分责任试运行期不区分责任有实际业务影响有实际业务影响不计入故障不计入故障 QuotaGOC 复盘复盘指标纳入能力考察指标纳入能力考察蚂蚁外部责任蚂蚁外部责任有实际业务影响有实际业务影响不计入故障不计入故障 QuotaGOC 按需复盘按需复

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(刘凯宁-蚂蚁故障应急全流程体系构建及应用实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠