1、 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。亚马逊韧性系统建设框架:持续提升系统韧性的方法谷雷 K S 0 5K S 0 5资深解决方案架构师亚马逊云科技 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。基于韧性生命周期持续地提升企业工作负载韧性设定目标设计及实施验证和测试持续运营响应和改进探索?务?韧性生命周期白皮书 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。构建韧性系统的5个阶段设
2、定目标 工作负载优先级划分 系统风险识别 业务指标识别 历史故障分析设计和实施 韧性架构设计 高可用、容灾方案 数据集中备份方案 韧性服务和功能 依赖关系映射 运营准备情况审查 CI/CD验证和测试 可观测性改进 混沌工程 压力测试 A/B 测试 基准测试 功能测试持续运营 实时监控 金丝雀流量 运营审查 工单系统 异常检测 自动化/运营手册 监控优化响应和改进 自动修复 错误纠正流程 事件管理 告警优化 事件知识库 历史事件跟踪关键产出 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。亚马逊云科技帮助某IOT平台进行系统韧性提高项目PillarsPill
3、arsTimeTime设定目标设计及实施测试和验证持续运营响应和改进核心业务监控大屏优化引入混沌工程推广混沌工程新建链接的限流优化CLBCLB-NLBNLB MigrationMigration负载均衡优化IoT IoT 网关的资源优化应用发布策略优化事件响应机制优化容灾策略优化2023/2023/Q1Q12032/2032/Q2Q22023/2023/Q3Q3R Resilience lifecycleesilience lifecycle基础设施按业务拆分引入业务中断根因分析机制IOTIOT网关的切换测试全面风险分析优化KPIs+KPIs+业务流量的跨azaz优化告警优化持续混沌工程 20
4、24,Amazon Web Services,Inc.或其附属公司。保留所有权利。通过提升系统韧性,减少业务中断时间8.4411.3415.078.559.042.470.70.6OCT-22NOV-22DEC-22JAN-23FEB-23MAR-23APR-23MAY-23JUN-23JUL-23AUG-23SEP-23平均故障修复事件(小时)2322111453332211Oct-22Nov-22Dec-22Jan-23Feb-23Mar-23Apr-23May-23Jun-23Jul-23Aug-23Sep-23影响超过0.5%客户的中断事件AWS InfraArchitecture在亚
5、马逊云科技的帮助下,通过提升系统韧性,中断事件减少68%,平均故障修复时间缩短75%2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。Thank you!Thank you!声明/Disclaimer:1.前述材料中的特定亚马逊云科技生成式人工智能相关的服务(如Amazon Bedrock,Amazon Q)仅在亚马逊云科技海外区域可用,详情请以官网最新信息为准。亚马逊云科技中国仅为帮助您发展海外业务和了解行业前沿技术选择推介该服务。2.前述材料中第三方生成式人工智能内容并非由亚马逊云科技提供,您应当依法使用服务并遵循相应的合规要求。谷雷 资深解决方案架构师亚马逊云科技