郭旻欣-江苏电信 IT 运维转型之 SRE 体系建设实践.pdf

编号:122109 PDF 33页 5.28MB 下载积分:VIP专享
下载报告请您先登录!

郭旻欣-江苏电信 IT 运维转型之 SRE 体系建设实践.pdf

1、江苏电信IT运维转型之SRE体系建设实践郭旻欣 SRE负责人中国电信集团云化架构师、内训师、云眼产品经理江苏电信IBOC SRE 团队负责人江苏电信云运维一级专家江苏电信“劳动模范”获得者困难与挑战稳定运营保障体系运营专项行动困难与挑战系统的变革烟囱式动荡平稳架构演进2020年7月,中国电信启动“IT上云三年计划”,2022年中国电信全面上云后,运维面临巨大挑战上云系统PaaS层统一采用研发中心自研组件,IaaS层上天翼混合云,原属地化维护变为多单位维护2分布式架构带来系统节点、微服务数量呈几何级数增加,监控工作量急剧上升3监控对象间关系极其复杂,人工维护无法胜任4数据分片、异地存储,传统维护

2、模式难以为继面临的困难与挑战 运维团队分散,各自为战CRM团队计费团队OSS团队PAAS团队 缺乏集约化运维工具云眼AIOPSITSM 运维流程管理混乱风险隐患流程故障管控流程应急预案流程风险操作流程 运维监督检查不到位隐患整改运维操作架构部署应急演练监控覆盖故障闭环 IT运维规范不完善风险操作监控部署隐患排查应急演练系统优化寻求IT运维转型构建稳定运营保障体系(如何做)+开展运营专项行动(高效做)稳定运营保障体系SRE稳定运营保障体系围绕“故障次数、时长双压降”一个目标,依托四大运营驱动力,聚焦“做细事前故障预防、敏捷响应事中故障处理、抓实事后故障改进”三个阶段,形成“规范、动作、能力”三统

3、一运营体系,建强稳定运营能力,减少故障发生,提升客户感知一个目标三个阶段四大运营驱动力三个统一运营专项行动围绕四大运营驱动力,做实五大举措举措一 组建SRE运营团队铁三角:运营管理团队:值班长AB角值班机制一线运维团队:7*24小时值班机制二线运维专家:专家团队负责运营专项攻坚举措二 用好数字化工具三工具:云眼平台:集约化监控平台凤凰平台:全链路监控与可观测工具ITSM系统:运维流程数字化工具举措三 加强运维流程管控四流程:隐患排查流程应急预案流程风险操作流程故障管控流程举措四 做实检查奖罚并举三手段:健康评估 积分驱动 检查考试举措五 健全IT运维规范十规范:统一规范制定:固化沉淀、精简实用

4、、与时俱进强化规范执行:系统管控、智能提醒、狠抓落实一、团队组建(1/4):组建SRE运营团队运营管理团队(牵头)二线专家团队(协同)一线值班台(协同)人员:IT监控中心运维团队职责:承担中心运营事件的预处理工作,包括集团云眼、凤凰等平台告警响应与告警调度工作等;落实7*24小时值班机制,承担全部门的夜间值班工作人员:组建二线专家团队,按需抽调专家人员,根据工时计算积分职责:负责故障定责、故障复盘、规范制定、流程优化、工具打造、运营检查等工作;牵头本部门稳定运营工作人员:运营管理团队职责:负责IT稳定运营、故障压降;落实每日值班长AB角值班机制,承担服务响应、事件处理、集中监控、调度处理、客感

5、分析等“五归口职责”运维检查评估:参与中心组织的系统告警完备度、风险隐患、风险操作、应急预案、故障整改等专项检查,参与系统四级运营能力评估风险操作审批:负责对重大风险操作实施方案、系统应急预案、回退方案等进行审批故障应急处置:输出专家经验,出现故障是快速加入联合作战室,协同业务团队处理生产系统故障故障复盘分析:参与每起故障复盘分析,举一反三、由点带面,从中心层面发现深层次的问题,并验收故障整改情况参与故障定责:负责对跨专业故障进行分析,定责故障责任专业沉淀运维规范:参与中心IT运维规范制定,包括风险操作、监控部署、应急预案、PaaS使用等内容,将开展的故障诊断、故障处理、故障复盘等经验总结输出

6、,并完善IT运维规范二线专家团队“6项”职责SRE运营团队“3个”小组一、团队组建(2/4):营造运维文化-运维吐槽大会 目标营造“运维文化”氛围,提升运维人员存在感、归属感 搭建舞台激发运维人员活力,总结沉淀IT运维经验 举措一:运维吐槽大会主咖:IAAS/PAAS维护团队、运维工具开发团队等主题:“技术玩真的,吐槽来狠的”期望:聆听运维人员心声,收集IT运维工作的建议;切实推动解决IT运维痛点难点,为运维人员减负运维吐槽大会一、团队组建(3/4):营造运维文化-小羲说运维 举措二:小羲说运维搭建运维人员展现自我舞台,沉淀运维经验,对外赋能栏目内容包括“故障大剖析”、“规范小贴士”、“运维藏

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(郭旻欣-江苏电信 IT 运维转型之 SRE 体系建设实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠