【快猫星云秦晓辉】面向故障处理的可观测性体系建设.pdf

编号:157149 PDF 27页 2.58MB 下载积分:VIP专享
下载报告请您先登录!

【快猫星云秦晓辉】面向故障处理的可观测性体系建设.pdf

1、建设面向故障处理的可观测性体系秦晓辉 快猫星云联合创始人秦晓辉(vx:picobyte)Open-Falcon、Nightingale、Categraf 等开源项目发起人,极客时间专栏运维监控实战笔记作者,公众号 SRETalk 主理人,快猫星云(flashcat.cloud)联合创始人。丰富的监控、可观测性构建经验。更多类似今天的观点,关注这里今天和大家一起探讨 可观测性在整个商业体系中的位置和价值 如何快速发现故障,使用哪类指标告警 SRE 在谈论故障定位的时候,谈的是什么 如何找到故障直接原因,找到止损依据 如何让可观测性系统呈现观点,辅助洞察,定位故障客户/用户需要:好的产品体验 产品

2、体验包括功能体验和可靠性体验,可靠性体验核心追求是高可用、低延迟 功能体验依赖产品设计和迭代速度,跟今天的话题关系不大按下不表。如何才能具有好的可靠性体验?产品体验功能体验可靠性体验高可用低延迟在线类产品的商业发端如何才能有好的产品可靠性体验?产品体验功能体验可靠性体验高可用低延迟 可靠性出问题,比如不可用了,或者延迟过高,也就是发生了故障 技术团队要做的,除了持续优化架构和性能,还要和故障斗争:故障降发生、降影响故障如何降发生、降影响?故障开始故障发现故障定位止损动作故障恢复常态预防排查根因复盘改进优化故障生命周期各个环节事前:及时发现风险,做好架构、预案、演练事中:及时发现故障,及时定位,

3、及时止损事后:排查根因,落实复盘改进项可观测性在整个过程中的职能是什么?在哪个环节发挥价值?可观测性在哪个环节发挥价值?故障开始故障发现故障定位止损动作故障恢复常态预防排查根因复盘改进可观测性核心价值:快速发现故障,快速定位故障小结:可观测性的位置和价值产品体验产品可靠性体验包含故障降发生、降影响可观测性依赖可观测性最终服务于产品体验/商业成功,可观测性核心价值:快速发现故障、快速定位故障如何快速发现故障?使用哪类指标告警?什么是故障?产品体验受损,就是故障!电商产品存储系统流媒体产品用户无法下单、无法支付、无法查看商品、无法查看历史订单用户无法读、无法写、或者读写延迟过高无法开启播放、无法拉

4、流、无法浏览视频信息如何快速发现故障?对哪类指标告警?电商产品存储系统流媒体产品用户无法下单、无法支付、无法查看商品、无法查看历史订单用户无法读、无法写、或者读写延迟过高无法开启播放、无法拉流、无法浏览视频信息订单量、支付量、商品/订单访问成功率/延迟读/写成功率、读/写延迟播放量和成功率、拉流延迟、视频浏览成功率/延迟等这些指标有何特点?如何分类?电商产品存储系统流媒体产品订单量、支付量、商品/订单浏览量和访问成功率/延迟读/写成功率、读/写延迟播放量和成功率、拉流延迟、视频浏览量/成功率/延迟等这些指标都是客户体验类(结果类)指标,可观测性体系,首先要建立完备的指标体系,和告警系统配合,即

5、可快速发现故障!结果类指标分两类:业务指标、SLO指标。注意:SLO指标正常时,业务指标未必正常!(想想为啥?)所以,都要监控,甚至业务指标监控应该放在第一位(想想和BI数据的异同?老板关注的)结果类指标 vs 原因类指标除了结果类指标,还有原因类指标。因为产品的核心业务功能是可枚举的,每个功能对应的结果类指标是可枚举的,做好结果类指标的告警,就可以保证告警是全的,做到有故障必有告警!举个例子:实时交易类系统,交易量突然下跌。结果类指标:交易量原因类指标:机器宕机无法 ping 通原因类指标:数据库写操作失败率原因类指标:错误日志行数原因类指标:CPU 满载面向原因类指标配置告警,永远无法配全

6、,无法做到有故障必有告警!实际上,原因类指标不必一定要配置告警,出故障的时候可观测,即可!可观测性首先要建立完备的结果类指标!配合告警系统可以发现故障!下一步呢?下一步显然是故障定位!下面我们来聊一个话题:当我们在谈论故障定位的时候,我们谈论的是什么?故障定位首先需要完备的数据数据特征观点洞察综合所有观点,得出故障定位结论,得知具体是哪个模块导致的本次故障,即是最终洞察零散结论,比如根据特征数据分析之后发现,数据库没有问题、依赖的第三方服务没问题特征就比如:最大值、最小值,同环比等,比如5个服务实例,延迟最大的是哪个底层杂乱无章的数据,海量的指标、日志、

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【快猫星云秦晓辉】面向故障处理的可观测性体系建设.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠