1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站全局业务端到端监控平台研究和实践朱祥磊 山东移动高级专家具备20+年的IT相关工作经验,曾获“山东省创新能手”、“最美移动人”、“中国移动工匠”、“中国移动科技标兵”等称号,在IT系统架构规划、业务连续性保障、自动化智能化运维、云计算、大数据等方面具备丰富的经验。01业务现状与背景山东移动云转型后运维面临的挑战02云境基础能力云境平台构建的基础能力03云境应用场景基于基础能力和数据支撑运维场景04成效实现高效端到端运维能力目录Content01业务现状和背景2023 DevOps 国际峰会 暨 BizDevOps 企业峰
2、会 北京站系统复杂度提升,传统监控手段捉襟见肘伴随着山东移动微服务化、云原生化的推动,整体系统复杂度提升,基础设施变成了一个黑盒,服务调用和依赖关系也越来越复杂。云原生的架构对山东移动传统架构提出两大挑战:一是定位难,系统出现告警后,很难定位到根因;二是解决难,问题出现后很难发现,解决过程变得更长。系统规模01基础设施层更加黑盒随着应用向云原生架构演进,容器、微服务等云原生技术得到广泛应用,开发团队开始更加注重业务逻辑,无需关心基础设施的细节。然后,这导致开发团队和运维团队对基础设施关注度降低,基础设施变得更加难以理解和掌控。系统复杂性02服务调用和依赖关系更加复杂云原生化之后系统服务数量开始
3、增加,应用之间的调用再也不是单一服务对单一服务,拓扑调用和依赖关系变得越来越复杂,链路也越来越长。导致开发和运维难以全面把握系统的整体状况,阻碍了对系统的整体了解。简单单体架构垂直分层架构SOA架构微服务架构容器化微服务架构2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站云原生带来的观测种类变化,对监控提出更高的要求在经历云原生化后的山东移动,监控对象从小机、服务器、存储、虚拟化变为服务器、存储、虚拟机、容器。同时随着数字化转型,手机端、PC端、智能终端也导致监控对象增多。这一系列变化代表着我们对于系统监控范围正在急速扩大,要求也在逐步的提高。监测对象类型监测对象种类
4、物理机物理机物理机云服务器云服务器云服务器容器容器容器容器服务器数据库网络设备中间件中间件中间件终端终端终端终端2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站DevOps对业务稳定性带来的冲击敏捷开发、DevOps、BizDevOps、DevSecOps等开发运维理念的涌现和转变,持续集成、持续部署等工作流和工具结合,缩短发布周期,做到核心系统不停机发版。随之带来的各类依赖关系和代码追踪的问题,开发者和运维人员对系统掌控度的可观测性,成为保障系统稳定性的重要因素。迭代前迭代中迭代后敏捷开发、DevOps、BizDevOps、DevSecOps等一系列技术理念的广泛推
5、广下,山东移动软件迭代周期由XX天缩短到了X天,且要求开发人员可以随时随地的发版本。这也导致对系统稳定性提出更大的挑战。迭代周期迅速缩短 强弱依赖动态梳理 应急预案与机制 告警响应 代码可追踪 定期复盘 经验沉淀 2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站用户体验带来的稳定性挑战数字化时代用户大量使用IT来解决问题,基于用户体验的2-5-8原则,加载时间每多1秒,就会流失7%的用户,加载卡顿或者显示错误的高频次发生,极大影响业务的发展和客户体验,因此需要进一步保障系统的稳定性,提升客户满意度。业务系统稳定运行,系统无报错01客户感知网/小程序/APP加载故障,或
6、者因为兼容性使用感受不佳02客户流失客户中断此次使用行为或使用其他同类型产品代替04前端团队充满疑问,无法复现和定位问题03业务表现累积下来,波动影响的客户最终流失并影响业务表现0502云境基础能力2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站基于业务端到端可观测性方案整体建设思路根据现阶段存在的问题,构建相应的应当措施。整体思路如下:1.对现有的Skywalking、Dynatrace、Xtrace工具能力进行针对性整合综合互补端到端监控可视化能力,提升业务端到端监控能力的易用性和落地展示效果。2.拉通metric、log、tracing(对应cmdb监控、日志、