1、爆发式增长业务的高可用架构优化之路邓学祥目录目录Contents0 01 1爆发式增长业务的稳定性挑战0 02 2爆发式增长业务的稳定性应对之道0 04 4降爆炸半径自研Service Mesh实现去中心化网关0 03 3异地多活交易单元化技术架构爆发式增长业务的稳定性挑战0 01 1主题主题SUBJECT中间件及基础设施庞大Infrastructure 规模大中间件复杂业务架构复杂X因素多业务子系统多下游二方/三方依赖多变更引发的故障非变更引发的故障稳定性挑战 业务系统神龙架构盘古存储AliOs洛神网络调度日志服务容灾监控服务分布式数据库HSFTairMetaq容器基础设施云资源云操作系统中
2、间件单机故障,单块硬盘故障机房故障,机房网络故障面向失败设计,单点故障可能是常态,机房级故障较少,对业务系统挑战高主备切换抖动延时,中间件bug,中间件故障单容器故障K8S调度故障,K8S升级故障基础设施挑战requestApi GatewayMicro Service1.1Micro Service1.2Micro Service1.3Micro Service1.4Micro Service1.5Micro Service1.6Micro Service2.1Micro Service2.2Micro Service2.3Micro Service2.4Micro Service3.1Mi
3、cro Service3.2Micro Service3.3Micro Service3.4Micro Service3.5Micro Service3.6复杂系统链路较长复杂系统链路较长,定位问题可能变得困难二方/三方系统故障,RT变长,成功率下降等上游请求量暴增下游失败的后的上游重试上游非法请求,安全攻击等链路上的上下游变更故障系统的自我保护系统的自我保护,防止被上游异常大流量打死下游的超时保护下游的超时保护,防止被下游拖死区分强弱依赖区分强弱依赖,可降级依赖防止重试风暴防止重试风暴,多级重试是叉乘关系业务架构挑战故障类别变更类故障非变更类故障时间类变化证书到期服务到期消耗类值变化账户余额
4、变化库存类变化量变引起质变自增id超int最大值,变long类型数据量级变化非生产环境变更.省略因素太多,无法穷举其实本质也是变化X因素挑战爆发式增长业务的稳定性应对之道0 02 2主题主题SUBJECT预案平台风险预案关联预案执行降级预案单元化管控平台单元化切流资损熔断统一数据流聚类异常发现熔断处置决策事后单元化中间件支付渠道自动切换支付渠道下线决策支付渠道监控外部依赖管控平台外部依赖监控自动下线支付渠道上下线水位自动巡检qps水位播报存储水位播报应用水位播报全链路追踪故障归因全链路日志逆向监控数据采集数据处理逆向校验事中变更归因监控大盘分业务大盘整体大盘业务监控告警业务监控风险监控质量平台
5、质量评分测试覆盖率代码扫描灰度平台灰度引流灰度发布故障演练资损熔断演练支付渠道故障预案降级故障事前灰度diff压测平台压测引流语料压测计划混沌工程数据库连接/超时故障Redis连接/超时故障自动报告用反监控舆情监控机房切流单元化监控报警通知风险视图天级大盘单机服务故障RT延迟故障三方故障注入风险故障限流管控平台限流监控限流调整用反监控稳定性之道事前防范未然,事中快速发现,事后快速恢复灰度平台流量染色&识别,中间件根据环境标定位环境 上线前灰度环境做引流验证 通过环境标实现流量精细化管控,支持白名单、百分比等灰度流量控制 灵活,不需要全链路都有灰度环境。人工收集压测语料,压测case 手工执行压
6、测准备,手工切流,手工检查 压测过程中收集数据,手工生成保告压测平台压测自动化:常态化压测,压测提效VS 线上引流录制,自动收集压测语料 一键压测,自动完成切流等压测准备,自动检查 自动收集server cpu等信息,自动生成压测保告。历史报告对比。主流:主流:EbpfEbpf录制录制 +服务回放服务回放(回放回放 +Mock)Mock)选择:选择:中间件录制中间件录制 (服务本身承载录制服务本身承载录制+Mock)+Mock)引流回放平台线上真实流量回归验证,流量录制回放 对业务代码的侵入性尽可能少 录制不影响线上性能 串联一起请求的所有调用 专注于资损bug发现,避免资损。信息流、订单流、