《传音移动互联可观测体系设计与落地 - 曹剑.pdf》由会员分享,可在线阅读,更多相关《传音移动互联可观测体系设计与落地 - 曹剑.pdf(10页珍藏版)》请在三个皮匠报告上搜索。
1、传音移动互联可观测体系设计与落地曹剑阿里云智能高级产品专家传音控股业务架构与特点Kubernetes生态IaaSVM、存储、网络、安全Web应用微服务A1微服务A2Web应用微服务B1微服务B2PaaS数据库、中间件阿里云法兰克福(生产)阿里云新加坡(测试)阿里云上海(开发)技术架构SpringCloud微服务云原生容器化云原生PaaS全球多地域关于传音控股“非洲手机之王”非洲智能手机市场占比47.9%*,传音移动互联广告平台作为非洲主流营销平台之一,助广告主通过移动端媒体实现精准有效触达。可观测挑战观测对象多且杂微服务多,调用链路复杂新服务上线频繁,运维工作量大*统计数据援引 IDCs Wo
2、rldwide Quarterly Mobile Phone Tracker 2021 Q4可观测性整体设计思路 指标观测是可观测基础,梳理指标体系原则:分层设计,至上而下 告警驱动运维,IM内完成事件闭环 问题定位以链路为主日志为辅,指标到链路必须打通 开源标准优先,云服务优先黄金三指标SysLogHardware LogAccess logNginx logDB Logs应用日志Logbak/log4jCPUMEMNetwork消息堆积数据库连接K8s工作负责性能调用链路堆栈云服务链路VPC FlowTraceRouteTcpDump数据互联互通,开放,兼容PrometheusOpenTe
3、lemetryGrafana终端应用云服务&容器PaaS基础架构IaaSJS error/app crash页面性能PV/UV用户会话移动端日志调用链路堆栈云服务链路指标观测告警链路日志全生命周期观测指标设计1.资源层观测2.容器层观测3.云服务层观测4.应用层观测应用健康度 耗时、状态码、联通性应用观测 实例数、累计请求量、累计错误、QPS、RT、Error JVM监控(FullGC、Heap 等)慢Sql、Ingress监控(访问成功率、500错误比例、平均延迟)云产品观测 负载均衡SLB:活跃连接数,丢失连接数 云数据库Redis:响应时间,连接数使用率 消息队列MQ:消费延迟,堆积数
4、云数据库RDS:CPU使用率,活跃会话数节点观测 内存总量、使用量、限制量 CPU总量、使用量、限制量 网络带宽 磁盘空间工作负载 Deployment:期望副本数,可用副本数 Pod:健康度(Running、Pending、Failed),CPU使用率控制面 APIServer:读写成功率,在处理量 ETCD:存活状态,内存使用量事件观测视图:从盲点分散到全球全栈统一业务关键指标关键云服务视图应用性能技术观测大盘全局多维度大盘解决观测分散缺失痛点阿里云Grafana服务(杭州)孟买新加坡法兰克福数据源全球加速一套观测产品全球使用K8S集群性能指标Prometheus探针ARMS应用探针阿里云
5、Prometheus服务应用性能指标云服务指标阿里云Grafana服务云监控SDK阿里云服务PaaS容器服务集群工作负载workload告警平台:从告警盯人到基于群的ChatOps转变告警事件-等级评估-分配处理人-状态追踪事件处理详情-事后回溯应用监控云监控容器服务监控前端监控值班运维支持排班升级分拣提效压缩降噪智能分组诊断自愈AI处理流程统一Prometheus数据源ARMS智能告警平台统一对接飞书群智能降噪内置告警数据分析大盘基于PromQL的告警规则全链路追踪诊断系统:从零散单点到规模化全面覆盖 容器环境自动接入,运维效率指数级提升 自动生成全局拓扑,微服务依赖一目了然 端到端完整调用
6、链追踪,慢调用错误快速定位 指标观测关联链路和日志,可观测成为整体应用ARMS Pilot ControllerPrometheus服务容器服务集群POD链路、指标自动注入 Java agentARMS应用监控Deployment加入AnnotationARMS应用探针可观测架构大图可观测覆盖资源层、容器层、PaaS层和Web层全球多地域统一可观测架构,统一视图和告警目标架构总结Prometheus实例(容器服务)法兰克福新加坡孟买深圳Prometheus实例(云服务监控)P