1、2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会中国联通数字化监控平台系统安全生产保障体系建设实践曹家豪 项目经理毕业于英国爱丁堡大学,现就职于中国联通软件研究院运营保障与调度中心,在职期间深度参与中国联通数字化监控平台建设项目,负责涵盖系统可观测性、系统性能管理等领域产品线规划与建设,对云原生背景下如何构建安全生产保障体系,加快企业数字化转型有较为深刻的理解。01安全生产保障体系概览阐述安全生产保障体系的落地实践02稳定性保障工具建设思路从可观测性、稳定性测试、隐患管理、变更管理、故障管理等维度阐述稳定性保障工具建设思路03当前存在的问题与未来展望阐述当前稳定性保障工具
2、建设过程中遇到的问题与未来安全生产保障领域可能面临的挑战与机遇目录Content01安全生产保障体系概览阐述安全生产保障体系的落地实践2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会数字化转型中系统安全生产痛点问题管理制度制定与落实不到位1、红线底线不明确:缺乏纪律条例,警醒性弱;2、生产运营规范不清晰:团队组织、分工、流程和工作要求缺乏标准,导致工作不知如何开展;3、奖惩规范缺失:导向不明确,缺乏激励效果,缺乏安全生产重视度;工具能力建设不到位1、可观测性程度低:指标、链路追踪、日志能力割裂,缺乏端到端、全层级的故障发现、诊断工具;2、故障预防难实现:系统健康状态实时体
3、检难,隐患分析难;3、故障管理难度大:事前应急演练有效性无法验证、事中调度混乱,事后故障复盘难闭环;4、变更无法统一管控与追踪:变更申请入口分散,故障分析无法关联变更;5、压测无法覆盖写场景:无法做到读、写场景的全链路压测与性能瓶颈分析;安全生产意识缺失1、对安全生产缺乏敬畏2、安全生产意识持续性不足p 在数字化转型过程中,面对几何增长的云资源以及精细化的业务场景,如何保障系统安全生产,保证业务流程的高效运转,为生产运营提出了不小的挑战。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会系统安全保障体系建设历程 工具化建设2019 产品化建设2020 体系化建设2021 运
4、营支撑体系2022 安全生产保障体系2023p 安全生产保障体系的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程。监控工具测试工具运营响应工具监控管理产品线稳定性测试产品线配置管理产品线基础能力线自动化运维产品线故障管理产品线运营响应产品线制度规范保障组织架构保障平台工具保障运营机制保障运营支撑体系运行保障体系运营生态体系运营响应体系网络信息安全体系运营生产体系2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会系统安全保障体系-运营支撑体
5、系做实安全生产,提升中国联通大IT系统稳定性一个目标四大保障制度规范保障运营机制保障组织架构保障平台工具保障十五项核心工作架构设计研发测试生产变更运营支撑四个阶段稳定性架构设计变更管理版本管理链路识别监控管理故障预防容量管理故障发现故障响应故障定位故障应急研发测试故障改进故障演练值班管理p 一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会运营支撑体系-制度规范保障p 制度规范保障方面制定了大IT生产运营规范、红线底线纪律条例以及大IT生产运营奖惩方案,落实集中系统维护职责,筑牢安全风险防线,激发活力、时刻
6、警醒。大IT生产运营规范总册+十三个分册运营管理问题管理信息发布运行维护重保管理故障应急总册变更管理知识运营参数管理接维管理基础设施安全管理计费结算明确制度规范,提升安全生产意识,激发活力、时刻警惕红线底线纪律条例六大类变更管理重保管理监控告警隐患管理账号安全大IT生产运营奖惩方案奖励监控告警处理处罚不合规工单处罚排障能手数据稽核达人服务质检达人监控告警达人工单处理达人知识运营达人服务之星运维工具达人应急管理达人处罚违反红线底线处罚安全管理违反纪委纪律处罚故障处罚 总册+十三个分册:是B域、M域、D域集中系统生产运营工作平稳推进的基础性规范和依据。明确团队组织、分工、流程和工作要求,落实集中系