《4-1 可观测系统中的告警管理实践.pdf》由会员分享,可在线阅读,更多相关《4-1 可观测系统中的告警管理实践.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、可观测系统中的告警管理实践王金良 北京睿象科技有限公司 技术总监|01可观测性的整体生态02告警在可观测系统中的价值03可观测系统中告警管理的核心功能04智能告警管理最佳实践目录 CONTENT|01可观测性的整体生态|运维可观测性整体生态近两年,可观测性红遍IT运维领域,火起来的导火索是CNCF(云原生计算基金会)在云原生定义中提到 Observerbility,并声称这是云原生时代的必备能力。加之包括谷歌在内的众多大厂一拥而上,“可观测性”正式出道。谷歌给出可观测性的核心价值很简单:快速排障(troubleshooting)对于业务系统,尤其是云原生时代的分布式、微服务化、容器化的复杂应用
2、,随着系统业务量日益庞大、内部结构日益复杂、组件间交互日益频繁,传统的监控管理手段已经不足以满足新时代的需求,可观察性就自然而然地被引入IT领域,变成与性能、可用性、可靠性、可扩展性一样的关键维度。有业界专家一句话总结传统监控与可观测性的区别:“监控告诉我们系统的哪些部分是工作的;可观测性告诉我们那里为什么不工作了。”|运维可观测性整体生态业务可观测性其实就是对一个系统内部状态的测量、观察的能力;在有一些领域也叫可维、可测、可控能力。谈起可观测性的概念,必须要从“三大支柱”这个名词讲起。2017年,一篇博文总结了可观测性的三大支柱:指标(Metrics)、追踪(Tracing)、日志(Logg
3、ing),文中将可观测性问题映射到了如何处理指标(metrics)、追踪(tracing)、日志(logging)三类数据上,由此形成了流传很广的业务可观测性三大支柱理论。那么业务可观测性就可以具体化为:如何定义、获取、分析这三个层面的数据。实现对业务系统的运行状态、异常状况、服务质量的可观测、可发现、可管理的能力。三大支柱理论出现后的几年间里,这个观点受到了业内的广泛认可,发展为对可观测性能力的基本要求,并且每一个方面都有了众多成熟的解决方案。例如各类开源工具:聚焦于Metrics的:Prometheus、zabbix、Grafana等;聚焦于Tracing的:Skywalking、Open
4、Tracing等;聚焦于Logging的:ELK、Graylog等。|运维可观测性整体生态1980s1990s控制监控管理CA(2018年被189亿美元收购)BMC(2018年83亿美元收购)IBM(市值1100亿美元)HP(市值160亿美元)2000s2010sITOM需求层次运营Solarwinds(市值50亿美元)Splunk(市值300亿美元)2020sOpsware(16亿美元被HP收购)Atlassian(580亿美元市值)Servicenow(1060亿美元市值)dynatrace(120亿美元市值)Elastic(130亿美元市值,开源)Datadog(市值500亿美元)产品以
5、APM和日志监测为主的IT运维公司;在2020年将事件管理加入产品体系Pagerduty(市值35亿美元)为企业级用户提供以实时运维管理和数据分析为主的IT服务平台全球IT运维领域诞生了数十个百亿美金公司|运维可观测性整体生态国内市场 国内IT 运维的潜在发展空间超过千亿元,其中,金融、制造、能源等领域的大中型客户的年客单价达到几百万元。例如前瞻产业研究院数据显示,2012-2019年,中国IT运维市场规模呈现波动趋势。从增速来看,2014年达到近年来最高增速17.34%,达到了1121.2亿元的市场规模。2019年,中国IT运维市场规模达到2324.3亿元,同比增长15.73%,2020年我
6、国中国IT运维市场规模达到2690亿元左右。艾瑞咨询数据显示,2021年中国IT服务将突破万亿大关,其中,IT运维市场规模在2021年达到2941.2亿元,预计2023 年达到3236.4 亿元,2020-2023 年的年复合增长率为 11.7%。引入业内大佬的一句表述:到目前为止,IT运维赛道已经逐渐的层级化,强者逾强,因为软件领域一旦产品化程度高了,技术壁垒随之建立起来,逐渐的收敛市场。在这样的形势之下,完全初创没有积累的企业再进入,发展难度会越来越大。|02告警在可观测系统中的价值|运维可观测性整体生态图片引自dockone.io可观测性并不是在取代监控,它也不是一种我们通常理解的某一个