《杨金全-遇见答案-云原生场景下可观测性AIOPS落地实践.pdf》由会员分享,可在线阅读,更多相关《杨金全-遇见答案-云原生场景下可观测性AIOPS落地实践.pdf(69页珍藏版)》请在三个皮匠报告上搜索。
1、云原生场景下可观测性AIOPS落地实践杨金全 基调听云演讲嘉宾杨金全基调听云研发VP中国第一批商业化APM工具缔造者、实践者,目前专注在智能观测性平台的产品研发及商业化运营上,对APM及可观测性行业有较深入的理解及洞见。常年服务于金融、运营商及高科技等行业的头部客户,为其提供专业的技术方案和产品服务。目 录CONTENTS1.加速的数字化转型对IT运维带来的挑战2.可观测性的5大信号及其价值3.AIOPS 现状及落地思路4.遇见答案-智能运维AIOPS 落地实践5.行业案例加速的数字化转型对IT运维带来的挑战PART 01挑战与必要性宏 观 趋 势 /技 术 趋 势 /业 务 挑 战 /能 力
2、 范 围加速数字化转型是现代企业最重要的战略无论是改善用户体验、合作伙伴体验、员工体验、供应链效率、加快创新和产品交付,或其他方面的一些原因,企业对于数字化转型的需求从未如此强烈十二五十三五十四五2011-2015推动信息化与工业化深度融合2016-2020推动信息技术与社会经济发展深度融合2021-2025以数字化转型整体驱动生产方式91%的企业都参与了某种形式的数字化计划-By Gartner87%的企业认为数字化将颠覆他们的行业-By 德勤IT团队需要变革性的技术,打破数据孤岛,理清系统运行状态,更快的故障响应、更准的根因定位、更少的用户影响,确保系统稳定性,驱动数字化转型Gartner
3、:数字化转型以业务为中心,服务和用户体验是关键目标。而IT监控以系统可用为中心,仅关注系统可用性指标对于转型中的企业而言是一场灾难。到2023年,依赖于“正常运行时间”指标的监控实践将抑制90%的转型计划。用户体验决定业务增长分布式架构大行其道依赖关系错综复杂多云且动态变化创新加速90%数字化业务复杂性急剧增加,IT稳定性受到严峻挑战传统监控在新的场景下无法有效作用告警多:业务故障时会产生大量告警(日均严重告警500+),一些关键故障被告警风暴掩盖故障定位难:无法深入分析根因,影响业务恢复用户体验差:客诉增加,运维疲于救火,领导不满意某大型国有银行某运营商工具多:业务快速发展,IT规模急剧扩大
4、,IT工具烟囱式建立视角单一:固定Dashboard,模型僵化数据割裂:数据模型不统一,无法获取”单一事实来源“需要的数据资源多:监控对象覆盖不全,粒度过粗指标多:监控对象类型多、指标多,当某个指标告警时运维人员很难理解其含义,如何快速处置变更难:资源依赖关系梳理不清,提心吊胆做变更某省医保监控难:全面采用微服务、云原生技术栈,业务复杂度高,运维难度大依赖复杂:服务治理无从下手,无法驱动业务治理用户流失:用户粘性降低,流失严重某跨国奢侈品企业现有的工具和分析模型 智能化程度不够,运维数据 未能很好转化为运维知识,需要变革性技术方案解决运维痛点97%的IT从业者迫切需要由监控上升到可观测性该研究
5、包括来自全球市场的 14,013 名 IT 专业人员的调查结果85%的受访者表示可观测性现在是其企业的战略重点85%可观测性的5大信号及其价值PART 02实现路径与价值概 念 /可 行 性 /实 现 路 径 /价 值 场 景可观测性概念及其特点可观测性是一种 ,通过检查系统的外部输出来 衡量系统内部状态的能力。外部输出的数据称为信号。Metric、Trace、Log、Profile 和 Dump 是CNCF约定的主要信号,认为,需要增加 这一重要视角,形成以 的可观测性体系。一体化 智能 可观测性 平台智能化自动化平台化实用化简约化一体化 给出答案 是衡量可观测性平台的唯一标准。-By 基调
6、听云为什么需要“一体化”智能可观测性平台?NPM BPC APM RUM 行为行为 SkyWalking XX监控系统监控系统 Zabbix Promethues 日志日志 xx xx每个监控工具仅适配一个技术栈每个监控工具数据模型不同,无法关联分析故障处理需要在不通的监控工具间来回切换团队间责任链不清晰,容易推诿业务恢复正常受阻烟囱式的监控工具,形成数据孤岛为什么需要一体化“智能”可观测性平台?MTTIMTTKMTTFMTTVPost-MTBF事中事后Pre-MTBF事前故障预防故障改进平均识别时间平均定位时间平均解决时间平均验证时间平均故障间隔平均故障间隔容量预测知识库故障发现故障响应故障