《全业务流程生产压测与监控实践-熊军军.pdf》由会员分享,可在线阅读,更多相关《全业务流程生产压测与监控实践-熊军军.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、面向业务流程的全链路生产压测和监控实践中国人寿寿险研发中心/熊军军1、系统稳定性面临的主要风险与对策2、面向业务流程的全链路生产压测3、面向业务流程的全链路生产监控4、持续提升稳定性保障能力目录1、系统稳定性面临的主要风险功能风险性能风险高不确定性风险功能风险性能风险高不确定性风险业务影响业务断操作慢客户怨架构原因【单体架构】牵一发,动全身【分布式/微服务架构】链路复杂,容量难控【云原生架构】我不懂云,云不知我主要对策2016-2020 架构升级 灰度发布/蓝绿部署 覆盖率检查/自动化测试2020-2023 全链路生产压测 全链路生产监控 熔断/限流/降级2022至今 混沌工程故障演练 全链路
2、生产监控 灾备/双活/自愈系统稳定性面临三类主要风险。实践表明,这三类风险将长期交迭,任何一类风险都可能引发生产事件,我们需要全面考虑,常抓不懈。高不确定性风险:发生和处置过程均存在较大不确定性的风险。如变更失误、硬件故障等。2、行业稳定性保障能力框架中国信通院系统稳定性保障能力标准框架不仅要注重工具建设,更要注重目标、组织及配套制度/流程/标准建设目标组织制度/流程工具符合企业特点的行业稳定性保障能力框架,为应对上述风险提供了体系化、标准化的指引。企业可在此基础上建立符合自身的稳定性运营体系。3、中国人寿重点业务稳定性运营思路业务目标:保障10+类重点业务全流程稳定性技术目标:防范性能风险和
3、高不确定性风险组织保障:独立于各产品团队的质量中心与技术管理团队牵头制度标准:在线压测工作指引、故障演练工作指引流程机制:建立面向业务流程的稳定性保障闭环工具能力:面向业务流程的全链路生产压测平台(事前观测容量)面向业务流程的全链路生产监控视图(事中观测异常)混沌工程故障演练平台(防范高不确定性风险)对接告警平台、变更平台等面向业务的容量规划应急预案面向业务的生产压测故障演练面向业务的生产监控告警分析/处置优化面向业务流程的稳定性保障闭环4、面向业务流程的稳定性保障工作视角业务视角技术视角为什么业务视角如此重要?l是一个最终价值的视角 初心动力l是一个一致理解的视角全员协同l是一个全面展现的视
4、角全部链路可见,业务连续性,是稳定性保障工作的起点也是终点,是做好全链路生产压测和全链路生产监控的关键。5、全链路生产压测与监控目标生产0重大性能事件重点业务活动顺利举措1全链路生产压测(事前观测容量)举措2全链路生产监控生产容量验证识别链路短板保障压测安全提高压测效率扩展监控能力:监控生产流量,保障重大业务活动(事中观测异常)(1)初期,为有效防范性能风险,建设了全链路生产压测能力。为保障压测安全、提高压测效率,建设了全链路生产监控能力。(2)进而,考虑到监控系统既能观测压测流量,也能观测实际生产流量,故扩展监控能力用于实际生产保障,增加了灵活配置业务流程、业务趋势图、历史快照对比、告警通知
5、等功能,支持重大业务活动,取得较好效果。1、系统稳定性面临的主要风险与对策2、面向业务流程的全链路生产压测3、面向业务流程的全链路生产监控4、持续提升稳定性保障能力目录1、传统压测技术的局限性测试环境压测主要问题是测试环境与生产环境不一致,包括:程序不一致 配置不一致 数据不一致 操作人员不一致生产环境有侵入压测主要问题是需要各系统通过改动代码来识别压测流量,影响包括:不全面:技术难共享,推广难度大,进而难以实现全链路压测 不安全:缺乏统一的压测安全管控,各系统技术水平参差不齐 不统一:各系统各自为战,缺乏统一的流程和标准,协作困难2、全链路在线压测技术方案全链路在线压测平台压测链路管理模块压
6、测任务执行模块应用A应用B白名单之外的应用压测探针压测探针正式key影子key读写正式库影子库读写 缓存切换数据隔离消息队列切换正式topic影子topic正式流量压测流量挡板服务应用隔离正式日志影子日志 日志切换压测标传递被测系统压测管控压测管控(1)Java类应用在线压测技术方案(无侵入):基于字节码增强技术的压测流量路由第三方应用2、全链路在线压测技术方案(2)非Java类应用在线压测技术方案(低侵入):基于独立生产压测环境的压测方案应用1(Java 探针)应用4(Java 探针)应用2(ABAP语言)前端销售系统(Java 探针)后端系统 (Java 探针)第三方支付(挡板)SAP应用