《6-轻量级演练体系建设-张宏博-0714.pdf》由会员分享,可在线阅读,更多相关《6-轻量级演练体系建设-张宏博-0714.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、轻量级演练体系建设张宏博目录CONTENTS010203背景介绍整体方案演进阶段及效果04规划展望背景介绍现状方案问题架构风险现状链路识别保鲜识别准确率低1.在线服务数量千级2.不同区域资源部署不对等,存在大量链路路由特殊配置3.资源供给不足且不均衡,加剧整体稳定性风险1.识别业务核心链路,清理不合理依赖关系2.针对核心服务梳理建设高可用预案对业务稳定性至关重要传统trace追踪和流量计数难识别业务强弱依赖关系和重要性演练执行效率低 研发进行降级演练和有效性验证,步骤繁琐,对人员熟悉度要求高 演练结束需确保功能恢复,存在忘记回退到演练前状态情况有风险 演练过程中需要多种方式校验有效性,多个平台
2、操作割裂效率低验证准确性和复用度差 业务场景及核心链路繁多,以往演练环境/校验项保鲜和复用性差 因校验项过多导致存在漏校验风险,整个过程冗长较重降级演练/强弱降级演练以年度执行,演练频次低,存在风险准备阶段演练前验证演练执行演练验证演练结束恢复验证目录CONTENTS010203背景介绍整体方案演进阶段及效果04规划展望整体方案目录CONTENTS010203背景介绍整体方案演进阶段及效果04规划展望核心链路识别和保鲜存量增量宗旨:保证核心链路识别准确度、避免业务重复操作核心链路打标1.涉资链路(自动计算)2.核心链路(人工打标)3.强依赖(人工/自动打标)降级演练自动化验证思路 从业务实际降
3、级场景出发 基于演练平台触发事件 实现业务和场景适配 借助测试能力完成有效性验证演进阶段一:降级演练半自动化效果验证存在问题1.效率低,单预案演练1小时,目标场景演练耗时2天2.对人的熟练度要求高,验证能力复用性差阶段收益1.各种有效性验证手段收敛到一个原子2.所有验证能力可在后续演练中持续复用3.演练时长1小时=30分钟,效率提升50%4.演练验证发现1例降级演练策略配置问题5.降级演练频次可保持至少每个季度1次演进阶段二:降级演练全自动化效果演练一阶段遗留问题阶段收益1.基于平台一键完成演练自动验证,无需多平台跳转操作2.从RD和QA共同执行演练,到RD可自主完成演练和验证3.降级演练所需
4、时长变化60min-30min-15min1.效率瓶颈:降级演练和验证平台割裂,操作时需要在两个平台多次跳转,效率无法进一步提升2.涉及角色多:验证预案及流水线随场景增加,演练时RD进行演练及演练恢复,QA完成各阶段有效性验证演进阶段三:降级演练&效果验证全自动化二阶段遗留问题阶段收益1.除有效性验证外,降级演练本身也实现全自动化2.降级演练及验证融入上线流程,可常态化演练3.降级演练验证配置灵活,可支持不同业务模式1.验证完成全自动化,是否降级本身更值得关注?2.演练频率达到月度后能否更高?可否常态化?3.参与角色能否更少?切流演练痛点1.RD需要进行切流演练和有效性验证,步骤繁琐,对人员能
5、力要求高2.机房切流演练按比例逐步切流校验、按比例切流恢复,验证场景 x N3.演练过程中需要以多种方式校验有效性,多平台切换割裂4.切流演练需等待5min,通过监控看板数据趋势确认切流是否生效5.切流演练有效性需抓包确认,同时核心功能场景可用性需同步验证效率低、场景多、时间长切流演练自动化验证请求流程 切流演练阶段分按比例切换前中后 增加机房请求有效性验证、数据链路分析验证 账号池的构建保证验证能力完整度收益1.链路覆盖:降级自动演练验证能力覆盖业务10+核心场景链路2.人力节省:从RD&QA两种角色参与定期演练,到无需人力介入定时自动演练3.演练效率:业务容灾演练和验证时长60min-15
6、min,演练效率提升75%4.演练频次:得益于演练效率上的提升,业务容灾演练由1次/年提升到1次/月&周5.问题发现:发现10例因容灾降级演练策略配置问题导致降级未生效问题1.强弱依赖演练:演练1000+接口,识别200+强依赖接口,80+问题2.自动化演练:覆盖50+链路,核心链路覆盖度72%3.演练频率:从多角色半年度/年度演练,到每周零投入自动化触发演练50个接口,发现14例问题容灾降级演练验证强弱依赖演练验证目录CONTENTS010203背景介绍整体方案演进阶段及效