1、茶百道微服务架构升级及运维实践 茶百道技术总监 马晓超ChaPandaContents目录01茶百道云原生历程02微服务架构升级及运维实践03未来技术演进茶百道业务架构与特点Kubernetes生态IaaSVM、存储、网络、安全Web应用微服务A1微服务A2Web应用微服务B1微服务B2PaaS数据库、中间件关于茶百道关于茶百道茶百道是四川成都的本土茶饮连锁品牌,创立于2008年。经过15年的发展,茶百道从成都市温江区开出第一家店,到如今已成为餐饮标杆品牌,全国门店超7000家,覆盖全国超过330个城市业务特点业务特点线上线下相结合,业务峰值变动大线上线下相结合,业务峰值变动大稳定性要求高稳定
2、性要求高新服务上线频繁,运维工作量大新服务上线频繁,运维工作量大店务POS美团饿了么小程序抖音支付宝技术架构SpringCloud微服务云原生容器化云原生PaaS全国多地域茶百道技术概览CPU核数1万+日活峰值5万+实例数量3万+业务店务POC小程序美团饿了么抖音支付宝中台营销中心会员中心订单中心商户中心配送中心infra数据库缓存中间件网关容器可观测稳定性成本本页面数据来源于茶百道内部统计茶百道云原生发展历程ChaPanda2018业务信息化全面升级,流量上升IDC托管机房承载业务流量业务信息化转型自建机房,采购服务器,虚拟化内部管理及部分业务系统线上化自建系统,本地化部署20132023C
3、端、B端业务系统全面云原生自建依赖容器、微服务能力应对突发流量全面云原生,容器化2021SAAS化平台,全面数字化业务系统采用SAAS化托管模式门店、订单、POS、小程序全面数字化资源弹性Elastic Infrastructure系统稳定性Reliability应用敏捷性Application Agility云原生,茶百道核心业务驱动力ChaPanda容器架构核心能力提升 资源弹性ApplicationScalingResourceScalingKubernetesECSPODPODPODPODGPUInscancePODPODPODPODSpotInscancePODPODPODPODVi
4、rtualNodeECIECIECIECIHPAPODPODPODPODVPAPODCron HPAPODPODPODPODPODPODECS千节点扩容60秒30秒ECI扩容pod数3000突发流量弹性资源10万core成本降低50%本页面成本降低数据来源于茶百道内部统计,云产品数据来自阿里云官网茶百道面临的系统稳定性挑战茶百道技术架构店务POS小程序美团饿了么抖音支付宝DNSSLBNG 集群业务关建K8S集群数据库、缓存、中间件DevopsIslandstraefik ingress故障快速发现与定位发布对业务有损突发流量系统防护茶百道全栈上云稳定性提升解决方案业务连续性管理体系故障预防快速
5、发现系统防护告警业务监控应用性能监控/中间件监控系统&云服务监控基础设施&网络监控多层次全链路监控tracing能力灰度环境商户中心门店中心商品中心.1%99%灰度环境无损上/下线生产环境商户中心门店中心商品中心.弱依赖自动降级商品中心积分中心耗时高或成功率低?是熔断并快速返回错误信息正常返回熔断降级流量防护预防能力建设,全面消除变更态风险 保障新版本发布时业务的连续性 业务下线、异常调度部影响线上业务 按业务标签、门店ID等,快速、安全地验证新版本 从网关、应用、到消息及数据库整条链路的隔离流量泳道,确保灰度环境全链路验证无损上下线全链路灰度可观测体系建设企业风险治理业务连续性保障智能运维I
6、T 成本管理敏捷组织提效故障恢复时间70%故障数30%本页面数据来源于茶百道内部统计全链路追踪诊断系统:从零散单点到规模化全面覆盖容器环境自动接入,运维效率指数级提升自动生成全局拓扑,微服务依赖一目了然端到端完整调用链追踪,慢调用错误快速定位指标观测关联链路和日志,可观测成为整体应用ARMS Pilot ControllerPrometheus服务容器服务集群POD链路、指标自动注入 Java agentARMS应用监控Deployment加入AnnotationARMS应用探针告警平台:从告警盯人到基于群的Cha