当前位置:首页 > 报告详情

刘凯宁-蚂蚁故障应急全流程体系构建及应用实践.pdf

上传人: 张** 编号:182390 2024-11-01 34页 3.31MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了蚂蚁集团在故障应急方面的体系构建及应用实践。作者刘凯宁是蚂蚁集团SRE技术专家,深度参与过容量、资源、压测、应急、变更、资金安全等领域的业务布防和能力建设。文章详细阐述了故障等级划分、应急流程、角色职责、故障数据运营机制等关键点。蚂蚁集团采用一套事先约定好的故障等级标尺,数字越小,级别越高。故障处理流程包括故障定义、故障序列分类、GOC故障点定义等。此外,文章还介绍了应急技术演进历史、应急角色介绍、应急值班长机制、应急流程、AI助力等方面内容。在AI方面,SRE-Agent技术架构动线数据、LLM信息推荐复盘文档等均为应急响应提供智能化支持。全文强调,无论故障原因如何,都需要及时解决,提高线上服务的稳定性和用户体验。
"蚂蚁故障应急全流程体系如何构建与应用实践?" "AI如何助力未来线上故障应急处理?" "线上故障全生命周期管理与应对策略是什么?"
客服
商务合作
小程序
服务号
折叠