《【辖德科技马驰】帮一千个微服务落地SLO.pdf》由会员分享,可在线阅读,更多相关《【辖德科技马驰】帮一千个微服务落地SLO.pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、为为一千个服务落一千个服务落地地SLOGitops的一个实践马驰现状现状1.公司有一千个公司有一千个web服务,分布服务,分布在三个地理区域的两种环境在三个地理区域的两种环境(Staging/Production)。)。2.有零散的告警设置,但是分布有零散的告警设置,但是分布在不同的系统里(日志,业务在不同的系统里(日志,业务指标,基础指标)指标,基础指标)3.故障处理过程中,没有共同语故障处理过程中,没有共同语言言1.很多服务没有SLO2.设置的SLO,可能没有正确的分区分级别很难使用SLO帮助跨团队沟通1.上下游业务之间沟通困难2.业务/框架/Infra之间沟通困难解决方案解决方案配置流程
2、配置流程可用性的SLO延迟的SLO定义为5XX请求数/总请求书默认SLO为99.99%,或者99.95%(API Gateway)默认timeframe为30天定义ALB/APIGateWay的延迟默认超时时间为0.2s默认timeframe为30天Component Browser运行时运行时依赖系统依赖系统API GatewayALB较为统一的较为统一的Infra架构架构Lambda/容器客户端Lambda/容器Lambda/容器完善的资源完善的资源tags1.绝大多数资源通过Infra as Code创建2.绝大多数资源在创建的时候有systemid tag3.没有systemid tag的资源会被aws config巡查出来4.服务拥有者可以利用tags做更精细的SLO设置,比如给不同区域设置不同的SLOBitBucket系统表系统表DataDogSlackOpsGenieGitOps文化文化不加班文化不加班文化DevOps文化文化Questions?