《何碧宏-全链路监控在根因分析和业务监控中的应用.pdf》由会员分享,可在线阅读,更多相关《何碧宏-全链路监控在根因分析和业务监控中的应用.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、全链路监控在根因分析和业务监控中的应用群核科技(酷家乐)云原生观测与SRE技术专家/何碧宏何碧宏何碧宏 目前为群核科技(酷家乐)云原生观测与SRE团队负责人、技术专家,稳定性委员会成员,参与 SRE、公司SaaS系统稳定性保障工作。此前在诺基亚工作十年,参与过诺基亚DevOps平台的架构和搭建。讲师介绍演讲提纲群核科技(酷家乐)SaaS系统及云原生观测系统(Tetris)简介全链路系统监控Why-大型微服务系统遇到的问题How-基于调用链与图数据库构建实时全链路系统监控全链路系统监控在警报风暴根因分析、全链路优化、变更影响分析中的应用全链路业务监控Why-系统监控 vs 业务监控How-全链路
2、业务监控系统的建设历程How-业务监控几大重点工程的突破全链路业务监控系统在前后端串联、业务影响分析、多集群海外业务监控中的应用定位时长缩短90%-基于全链路监控系统的自动化根因分析实践全链路监控系统及魔方语言自动化根因分析系统应用后效果关于酷家乐(群核科技)关于酷家乐(群核科技)全空间云设计软件平台全空间云设计软件平台服务覆盖服务覆盖200多个国家和地区多个国家和地区家居家装家居家装商业空间商业空间地产建筑地产建筑设计渲染设计渲染营销展示营销展示生产对接生产对接施工落地施工落地Coohom典型客户典型客户关于群核科技(酷家乐)业务及关于群核科技(酷家乐)业务及SaaS系统系统2B为主系统大型
3、微服务架构大型微服务架构服务分布式部署在腾讯云、各渲染、内网、自建机房、海外等八个机房以及公有云对象存储esprometheus埋点系统faros SDK业务监控根因分析AIOps图数据库全链路监控统一查询层thanos魔方语言异常检测流量预测故障预测根因分析时序指标预测大模型告警拓扑图警报切面图指标系统鲲鹏诊断告警系统告警计算引擎Alertmanager告警处理系统告警发送系统告警规则管理短信电话通知企信通知告警事件管理日志系统flinkkafka调用链系统clickhousefilebeat前端监控SDK前端监控系统埋点系统前端异常监控前端埋点前端性能监控前端日志业务埋点业务链路故障定义故
4、障与工单主机监控网络监控硬件监控中间件监控公有云监控私有云监控专线监控应用监控hunter SDK日志SDKTetris云原生观测系统druid天级指标秒级指标分钟级指标酷家乐云原生观测系统(酷家乐云原生观测系统(Tetris)概况)概况Why-大型微服务系统遇到的问题需要构建一个系统,帮助全链路故障根因定位、优化、变更评估需要构建一个系统,帮助全链路故障根因定位、优化、变更评估业务异常时,下游可能多个服务有异常,但下游服务的异常并不一定跟当前业务异常有关;底层服务或基础设施故障时,往往引发大规模警报风暴,应急手忙脚乱,定位难故障定位难故障定位难一个业务或功能,下游调用链路非常复杂漫长,下游服
5、务也被多个上游和业务调用,如何找到准确的优化点、以及全链路的核心依赖,进行全链路优化,难度高全链路优化难全链路优化难一个API被多个上游和业务使用,一次变更,如何评估影响到了哪些服务、哪些功能和业务,进而进行端到端、全链路精准测试,不是一件容易的事变更影响评估难变更影响评估难精准测试难精准测试难Why-大型微服务系统遇到的问题一个API的下游调用依赖拓扑图几十个下游服务,十几个不同类型中间件一个API的故障十几个下游服务都有异常,告警异常数数百个一个典型的警报风暴故障一个典型的警报风暴故障一个典型的一个典型的API复杂调用链路复杂调用链路How-全链路系统监控的构建微服务微服务微服务微服务调用
6、链SpankafkaFlink写入缓存图数据库拓扑图关系查询根因分析API分析变更影响分析AIOps基于调用链技术,实时写入,近实时的调用拓扑关系实时调用链数据流实时解析写入图数据库How-全链路系统监控的构建API及应用全链路拓扑图的构建:基于调用链与图数据库构建Span 1:服务A API=POST/A 调用服务B API=GET/BABABCDABC实现技术要点:实现技术要点:1.图的构成:节点与关系2.节点包含前端页面、前端微服务、网关、后端微服务、中间件、基础设施等多种类型,使用标签区分,每种类型的节点有不同的标签3.服务节点有type、name、cmdb、环境名、stage、集群信