《宋佳洋-基于 Prometheus 的 SLO 告警实战.pdf》由会员分享,可在线阅读,更多相关《宋佳洋-基于 Prometheus 的 SLO 告警实战.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、基于基于 Prometheus 的的 SLO 告警实战告警实战宋佳洋OPPO大纲告警基础知识2.基于 S l o t h 项目构建3.基于 P y r r a 项目构建4.多租户 S L O 服务构建关于我so n g jia ya n g 先后就职于七牛云、京东云等公司,目前在 O P P O 从事云计算相关工作。爱好开源,目前主要关注 G o 和 云原生可观测领域、是开源项目 P r o me t h e u s、Co r t e x、T h a n o s 的代码贡献值。微信公众号:G r a f a n a 爱好者为什么基于 SLO 告警 梳理内容 优先级告警 利益方认可 持续迭代没有
2、没有 S L OS L O,就没有就没有 S R ES R E SLO 相关概念SLI时间窗口错误预算燃烧率告警级别状态码 =5 0 0 请求延迟 2 0 0 ms进程运行非 0 状态码退出1w (7d)4w(28d)30d时间周期:3 0 天 S LO:9 9.9%错误预算:0.0 9 9 9 (1 0 0-9 9.9)%30 天总请求数:1 0 0 0 0 允许的错误请求数:9.9 9 (1 0 0 0 0 *0.0 9 9 9 /1 0 0)燃烧率燃烧率100%100%错误预算燃烧时间错误预算燃烧时间天天小时分钟p age t i c ketSLO 告警指导思想-MWMRPr ec i
3、s i onPr ec i s i on:准确率Rec al lRec al l:召回率(故障漏过未告警)D et ec t i on t i meD et ec t i on t i me:投递延迟Res et t i meRes et t i me:告警重置时长e x p r:(jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 1 h jo b=m y jo b (1 4.4*0.0 0 1)a n d jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a
4、t io _ r a t e 5 m jo b=m y jo b (1 4.4*0.0 0 1)o r (jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 6 h jo b=m y jo b (6*0.0 0 1)a n d jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 3 0 m jo b=m y jo b (6*0.0 0 1)s e v e r it y:p a g e SeveritySeverityLong Lon
5、g windowwindowShort windowShort windowBurn rateBurn rateError budget Error budget consumedconsumed参考 h t t p s:/s r e.g o o g l e/w o r k b o o k/a l e r t i n g-o n-s l o s基于 Prometheus SLO 告警基础和挑战加载和热更新默认从本地文件加载。ki l l hu b p i dc u r l X PO S T/PUT ht t p:/l oc al hos t:9090/-/r el oad开箱即用的 recor
6、d and alert rule#r e c o r d -r e c o r d:c o d e:p r o m e t h e u s _ h t t p _ r e q u e s t s _ t o t a l:s u m e x p r:s u m b y (c o d e)(p r o m e t h e u s _ h t t p _ r e q u e s t s _ t o t a l)#a le r t-a le r t:H ig h R e q u e s t L a t e n c y e x p r:jo b:r e q u e s t _ la t e n c y