张永涛-基于业务链可观测性的根因定位实践.pdf

编号:153922 PDF 32页 4.42MB 下载积分:VIP专享
下载报告请您先登录!

张永涛-基于业务链可观测性的根因定位实践.pdf

1、基于业务链可观测性的根因定位主讲人:张永涛演讲嘉宾介绍张永涛日志易售前架构师 带队研发智能运维平台,实现每天10TB+数据的交易链路追踪、黄金指标异常检测、监控告警、实时采集、解析、存储、检索、脱敏、备份还原、审计等功能 参与国有大行应用监控项目的落地,并协助将落地方案推广到其他银行 多年大数据开发和项目管理经验CONTENT目录2023K+01目标、现状、问题达到的目标效果解决方案+案例实践0203Part 01目标、现状、问题 目标 现状 问题目标故障发现1 分钟故障定位3 分钟故障修复5 分钟故障处理的理想目标:1、3、5(或 1、5、10)现 状目前以下监控工具,都有了,或者有几种:1

2、.基础资源性能监控工具Zabbix2.网络监控工具NPM3.应用性能监控工具APM4.业务全链路监控工具5.数据库监控工具6.日志监控工具7.指标监控工具Prometheus8.智能运维:指标异常检测、日志异常检测、根因分析8.仪表盘展示工具grafana9.大屏展示工具10.统一事件管理平台(告警收敛、告警合并)云原生时代-运维新问题复杂度软件开发生命周期阶段传统架构(基于大的应用)云原生架构(基于微服务)操作复杂度增加构建部署运行运维传统架构与云原生架构对比 传统架构:以大的应用为主,架构设计、部署复杂度较高,但后续运行和管理操作复杂度较低 云原生架构:以微服务架构为主,架构设计和部署简便

3、,但后续运行和维护操作复杂度大大增加。云原生架构带来的新挑战包括:线上流量大 微服务数量多,关系复杂 服务上线迭代快 研发团队庞大,分工更细更复杂运维指导思想的演进ITIL服务价值链可用性性能安全性可维护性DevOps软件生命周期协同交付速度(敏捷开发)交付质量Google SRE服务可用性性能评估健康度混沌工程(故障注入)ITSM网管CMDBAPM、NPM、BPM基于图数据的业务CMDBAnsible、PuppetJenkinsGitlab可观测性ELKPrometheuseBPF.可观测性(Observability)可观测性应运而生:随着软件的复杂度增加,跨团队合作越来越多,团队间的沟通

4、或排障,也需要提高效率,防止推诿;因此需要拿数据说话,对可观测性数据的需求,也越来越突出 可观测性的价值:从系统外部输出,来推断、衡量系统内部状态,将复杂的系统黑盒白盒化 可观测性数据分为三类:指标(Metrics)、调用链(Tracing)、日志(Logging)请求范围内的事件能够聚合的指标请求范围内的链路记录事件低流量高流量请求范围内的指标能够聚合的事件例如,错误数请求范围内的、能够聚合的事件运维难题及解决方案一、运维常见难题在运维过程中,一种常见的难题:无法在告警风暴出现时,迅速并精确地定位故障的根因。尽管有传统的解决方案,例如,多指标的根因分析和告警合并,但运维仍面临高误报率的问题二

5、、为什么需要做基于业务链可观测性的根因定位1.重要性:运维工作的核心目标是保证业务的正常运行。因此,运维团队需要优先关注业务系统的运维状态2.必要性:由于业务的快速发展,业务系统的快速迭代变更,可能导致意外故障3.实践经验:通过分析自身几百个客户案例,我们发现40%60%的故障是由业务接口或方法的代码问题引起的基于业务链的根因定位方法,能够更有效地解决运维过程中的问题,准确地找出故障的源头,从而使我们能更快、更有效地解决故障Part 02达到的目标效果 效果1:告警根因列表 效果2:横向纵向告警根因定位 效果3:横向端到端监控效果1:告警根因列表 提供告警根因列表,通过企业微信等,给相关人员发

6、送通知,相关人员按照告警根因列表进行确认效果2:横向纵向告警根因定位【效果】业务端到端调用链的异常分析能力,在本次异常事件处理中起到关键作用,做到2分钟发现问题,3分钟定位根因,故障定位效率显著提升【场景描述】2023年5月15日 14:45左右,手机银行的商品详情页面,出现响应缓慢问题,其对应的接口同时出现平均耗时异常的告警,当时平均耗时达到20971.14毫秒,远远超过正常值(一般为420毫秒左右)【横向】基于服务调用链数据,通过自研的根因分析算法的推荐机制,快速定位到耗时异常的子服务:rule_IProductRuleCheckHintCSV_checkDependRelation耗时4

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张永涛-基于业务链可观测性的根因定位实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠