1、数字化全链路监控助力云原生安全生产李明亮中国联通软件研究院 运营保障与调度中心 副总架构师数字化监控平台负责人三未来展望一背景问题二落地实践IT核心能力开放与运营B域(软研院)辐射全网用户与应用、服务内外部合作与创新M域O域.华盛各域创新子公司云化资源池大数据平台沃支付平台数字化底座智慧中台数据中台数字化研发、数字化监控、数字化能力开放联通云数据、能力、资源开放共享赋能应用业务侧管理侧微厅短厅网络侧大流量APP智慧医疗河湖长制智慧云网边缘云产品内部商城采购系统智慧门户数字档案馆ERP公众中台政企中台网络中台管理中台资源保障安全保障治理保障运营保障统一架构新运营体系中国联通软件研究院是中国联通集
2、团直属二级研发机构,成立于2015年7月1日,致力于科技自立自强、核心IT系统自主研发。本部位于北京,下设哈尔滨、济南、广州、西安、南京五个分院。根据数字化新IT智慧中台总体规划部署,软件研究院职责由B域系统研发、生产运营、支撑响应扩展至B域、M域、D域的生产研发与运营支撑;信息安全研发与运营等。3B、M、D域生产研发与运营支撑,信息安全研发与运营2020年B域项目建设、研发生产、采购2017年B域研发2015年集团2017179号集团2020177号集团2015135号集团2022123号改变划域而治实行管运分离改变研发、生产区隔实行B域整体演进2022年统一标准、技术框架、UI/UE,整合
3、同质化菜单、数据、资源,以BU方式嵌入支撑推进数字化转型实行统筹管理公司简介数字化转型业务安全生产面临的挑战 当前国内中大型企业数字化转型后,内部大多上百套系统,上千服务,业务连续性低,传统人肉运维难以为继,亟需建设数字化智能运维平台助力业务安全生产业务连续性挑战云原生下安全生产面临的新挑战云原生挑战运维生态挑战 运维工具重复建设 运维工具不精不强 运维工具能力割裂 各层级指标定义不标准、数据不互通 核心业务调用复杂,跨数据中心、跨云平台、跨系统 跨系统、跨层级故障根因联合定位难 端到端稳定性保障体系缺失 故障处于被动防御,救火 故障没有沉淀为有效的资产数智运维不足 故障处理过多依赖专家经验
4、运维大数据未被合理价值挖掘 自动化、智能化故障处理能力不足究竟什么叫做全链路监控?横向到边、纵向到底?业务安全生产的核心价值之一是提高业务连续性,可从提高平均故障间隔时间(MTBF),减少平均故障恢复时间(MTTR)两个方向开展工作,分解下来,就是在入网控制、发布上线、故障预防、故障发现、故障定位,故障恢复、故障改进进行全流程改进Pre-MTBFPost-MTBF故障预防故障发现故障定位故障恢复故障改进变更管理健康检查监控覆盖监控告警业务巡检用户反馈服务拨测日志分析监控分析链路追踪根因定位服务限流主备切换故障隔离故障复盘改进验收故障镜像周边清查建设/演练/OnCall复盘/改进/OnCall应
5、急响应容量管理故障自愈变更追踪应急预案服务降级MTTR舆情感知混沌工程业务链路入网控制发布上线接收测试冒烟测试版本验证自动测试链路压测风险评审质量控制代码质量安全准入业务安全生产三未来展望一背景问题二落地实践基础设施中国联通大IT生产运营工作台PC端(谷歌/火狐/IE/360)钉钉端西咸IDCCCS主机设备CKE阿里飞天网络设备亦庄IDCCCS主机设备阿里飞天网络设备无锡IDCCCS主机设备CKE阿里飞天网络设备广州IDCCCS主机设备CKE阿里飞天网络设备呼和IDCCCS主机设备CKE阿里飞天网络设备统一架构微前端qiankun微服务联通云平台天梯持续集成服务能力管控服务注册服务路由流量控制
6、熔断服务鉴权自主接入在线申请代理路由统一登录统一登录鉴权账号体系管理接入便捷灵活对接第三方登录开发者中心API服务订购SaaS应用上架数据API接口快速配置运营分析开发手册前端框架样例UI组件样例权限集成样例API接入样例基础能力管控平台命令通道数据通道文件通道权限中心用户管理菜单管理租户管理应用管理数据采集浏览器服务性能中间件主机资源APP感知天擎服务云平台网络资源监控告警告警通知告警处理告警静默告警查询作业能力作业编辑作业调度作业执行作业查看AI算法动态阀值能力指标异常检测指标趋势预测日志异常检测ITSM流程引擎流程编排流程调度流程执行流程查询配置中心配置发现配置采集配置拓扑配置查询基础数