1、 混沌工程先锋实践者混沌工程先锋实践者 优秀案例优秀案例 (2022022 2 年)年)混沌工程实验室混沌工程实验室 20222022年年7 7月月 前前 言言 随着分布式、云原生成为主流的系统架构设计方案,大规模分布式系统的稳定性保障能力越来越成为业界关注的重点。在此背景下,混沌工程以其防患未然、视“危”为“机”的理念迅速成为检验、增强分布式系统韧性的有效工具,近些年来得到业内广泛关注。混沌工程作为保障分布式系统稳定性的重要技术,已成为推动企业 IT 韧性系统建设的强大助力。为促进混沌工程创新发展,交流行业内先进经验,引导国内企业更好地应用混沌工程,提升国内云系统稳定性建设水平,混沌工程实验
2、室开展了首届“混沌工程先锋实践者”优秀案例评选活动。案例评选历时 4 个月,对国内一批成熟度高、具有示范标杆作用的优秀混沌工程实践案例进行了调研和评选,最终 16 个混沌工程优秀案例脱颖而出,覆盖互联网、软件、银行、证券、通信、零售、能源等行业和领域。本案例集按照“混沌工程先锋实践者”获奖案例的所属行业领域进行划分,充分征求企业意见后汇集成册,希望能对混沌工程领域相关人员有一定的启发和指引。目目 录录 第一部分 互联网领域.1 1.阿里云:阿里云容器服务混沌实践.1 2.蚂蚁集团:蚂蚁集团红蓝攻防实践.9 3.腾讯云:混沌工程对于云计算服务应用案例.19 4.京东科技:京东云全平台破坏演练.2
3、7 第二部分 银行领域.38 5.工商银行:工商银行混沌工程平台及混沌演练实践.38 6.农行研发中心:农行金库系统混沌演练实践.47 7.建信金科:建信金科混沌实践之道.63 8.北京银行:顺天技术平台混沌工程实践.78 9.平安银行:平安银行 ASTA 非功能测试平台.91 10.中电金信:恒丰银行红蓝对抗演练.100 第三部分 证券领域.111 11.中信建投:故障演练平台项目.111 12.中泰证券:混沌工程在互联网金融业务的应用与实践.119 第四部分 通信领域.132 13.中移信息:磐基 PaaS 平台混沌能力山东应急演练.132 第五部分 零售领域.139 14.永辉科技:永辉
4、生活电商全链路故障演练实践.139 第六部分 能源领域.144 15.南网数研院:云原生应用架构驱动的全栈高可靠探测.144 编后语.150 附录 1.151 附录 2.152 附录 3.154 “混沌工程先锋实践者”优秀案例(“混沌工程先锋实践者”优秀案例(20222022 年)年)图图 目目 录录 图 1 阿里云容器服务混沌实践实施流程.3 图 2 阿里云容器服务混沌实践实施框架.4 图 3 阿里云容器服务混沌演练模型.5 图 4 蚂蚁集团-为世界带来微小而美好的改变.10 图 5 蚂蚁混沌工程整体技术框架图.12 图 6 混沌工程整体技术框架图.21 图 7 京东云平台仿真环境.30 图
5、 8 京东云全平台故障演练流程.30 图 9 云资源稳态示意图.31 图 10 业务稳态示意图:.31 图 11 压测结果观测稳态变化.32 图 12 演练场景执行和问题分析定位.33 图 13 云泰故障注入与演练平台技术框架.34 图 14 工商银行混沌工程平台框架示意图.40 图 15 工商银行混沌平台故障注入能力.41 图 16 工商银行混沌演练实施效果.45 图 17 金库系统混沌演练部署架构.49 图 18 金库系统混沌演练平台总体架构.50 图 19 金库系统混沌试验演练流程图.50 图 20 混沌工程故障演练平台功能架构图.68 图 21 故障演练平台技术架构图.69 “混沌工程
6、先锋实践者”优秀案例(“混沌工程先锋实践者”优秀案例(20222022 年)年)图 22 故障演练平台实施流程图.70 图 23 混沌工具集原子能力图.71 图 24 顺天技术平台生态体系整体框架图.81 图 25 混沌工程整体技术框架图.82 图 26 两阶段测试实验流程管理情况.83 图 27 混沌工程案例应用范围示意图.85 图 28 平台演练解决思路(重点实施).85 图 29 平台演练解决思路(安全可信测试).85 图 30 应用中间件演练解决思路.86 图 31 平台可观测性能力.86 图 32 平台可观测性能力.87 图 33 ASTA 平台 PaaS 层技术方案.94 图 34