《宋佳洋-基于 Prometheus 的 SLO 告警实战.pdf》由会员分享,可在线阅读,更多相关《宋佳洋-基于 Prometheus 的 SLO 告警实战.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、基于基于 Prometheus 的的 SLO 告警实战告警实战宋佳洋OPPO大纲告警基础知识2.基于 S l o t h 项目构建3.基于 P y r r a 项目构建4.多租户 S L O 服务构建关于我so n g jia ya n g 先后就职于七牛云、京东云等公司,目前在 O P P O 从事云计算相关工作。爱好开源,目前主要关注 G o 和 云原生可观测领域、是开源项目 P r o me t h e u s、Co r t e x、T h a n o s 的代码贡献值。微信公众号:G r a f a n a 爱好者为什么基于 SLO 告警 梳理内容 优先级告警 利益方认可 持续迭代没有
2、没有 S L OS L O,就没有就没有 S R ES R E SLO 相关概念SLI时间窗口错误预算燃烧率告警级别状态码 =5 0 0 请求延迟 2 0 0 ms进程运行非 0 状态码退出1w (7d)4w(28d)30d时间周期:3 0 天 S LO:9 9.9%错误预算:0.0 9 9 9 (1 0 0-9 9.9)%30 天总请求数:1 0 0 0 0 允许的错误请求数:9.9 9 (1 0 0 0 0 *0.0 9 9 9 /1 0 0)燃烧率燃烧率100%100%错误预算燃烧时间错误预算燃烧时间天天小时分钟p age t i c ketSLO 告警指导思想-MWMRPr ec i
3、s i onPr ec i s i on:准确率Rec al lRec al l:召回率(故障漏过未告警)D et ec t i on t i meD et ec t i on t i me:投递延迟Res et t i meRes et t i me:告警重置时长e x p r:(jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 1 h jo b=m y jo b (1 4.4*0.0 0 1)a n d jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a
4、t io _ r a t e 5 m jo b=m y jo b (1 4.4*0.0 0 1)o r (jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 6 h jo b=m y jo b (6*0.0 0 1)a n d jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 3 0 m jo b=m y jo b (6*0.0 0 1)s e v e r it y:p a g e SeveritySeverityLong Lon
5、g windowwindowShort windowShort windowBurn rateBurn rateError budget Error budget consumedconsumed参考 h t t p s:/s r e.g o o g l e/w o r k b o o k/a l e r t i n g-o n-s l o s基于 Prometheus SLO 告警基础和挑战加载和热更新默认从本地文件加载。ki l l hu b p i dc u r l X PO S T/PUT ht t p:/l oc al hos t:9090/-/r el oad开箱即用的 recor
6、d and alert rule#r e c o r d -r e c o r d:c o d e:p r o m e t h e u s _ h t t p _ r e q u e s t s _ t o t a l:s u m e x p r:s u m b y (c o d e)(p r o m e t h e u s _ h t t p _ r e q u e s t s _ t o t a l)#a le r t-a le r t:H ig h R e q u e s t L a t e n c y e x p r:jo b:r e q u e s t _ la t e n c y
7、_ s e c o n d s:m e a n 5 m jo b=m y jo b 0.5 la b e ls:s e v e r it y:p a g e与时间窗口相关的多个 SLI rules s l o_ er r or s _ p er _ r eq u es t:r at i o_ r at e5ms l o_ er r or s _ p er _ r eq u es t:r at i o_ r at e30m.Alert rule 复杂,需要考虑不同时间窗口和告警级别e x p r:(jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r
8、 a t io _ r a t e 1 h jo b=m y jo b (1 4.4*0.0 0 1)a n d jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 5 m jo b=m y jo b (1 4.4*0.0 0 1)o r (jo b:s lo _ e r r o r s _ p e r _ r e q u e s t:r a t io _ r a t e 6 h jo b=m y jo b (6*0.0 0 1)a n d jo b:s lo _ e r r o r s _ p e r _ r
9、e q u e s t:r a t io _ r a t e 3 0 m jo b=m y jo b (6*0.0 0 1)s e v e r it y:p a g e Prometheus 告警基础Prometheus SLO 告警挑战开源项目 sloth 简介S loth S pecS loth Default、P r o me t h e u s S e r v i c e L e v e l、O p e n S L OL o a d S L O S p e cG e n S L I r u l e sG e n Al e r t r u l e sG e n Me t a d a t
10、a r u l e sO u t f o r ma tN P r o me t h e u s r u l e sSloth 整体架构S l o t h 是一个简单易用的 P r o me t h e u s S L O 自动生成器、支持 命令行和 K 8 s Co n t r o l l e r 两种使用方式,支持自定义告警窗口配置、提供开箱即用的 G r a f a n a 看板。Sloth SLO 配置Default sloth spec公用标签1l e r t 通用标签P a g e 级别告警标签T i c k e t 级别告警标签K8 s C RD Op e n SL O以 s e
11、r v i c e 来组织,包含多个 s l o sSloth AlertWindows 配置 S LO 时间周期不同告警级别多窗口不同错误预算/燃烧率1l e r t Wi n d o w s 主要用于MWMR 告警配置,s l o t h 默认包含了 g o o g l e-3 0 d 和 g o o g l e-2 8 d 两个配置,可自定义。h t t p s:/g i t h u b.c o m/s l o k/s l o t h/t r e e/ma i n/i n t e r n a l/a l e r t/w i n d o w sSloth CLI sloth generat
12、e-i slos-o rules-slo-period-w indow s-path=./w indow s-default-slo-period=30dsloth generate-i slos-o rules-slo-period-w indow s-path=./w indow s-default-slo-period=“2 8d 支持单个文件和目录批量生成。s l o-p er i od-w i nd ow s 会覆盖默认 a l e r t w i n d o w s 配置d efau l t-s l o-p er i od 对应 a l e r t w i n d o w s 不存
13、在,会报错Sloth 与 K8s Prometheus OperatorPrometheusServiceLevelCRDSloth K8s ControllerSl ot h O pe rat or#部署 s l o t h o p e r a t o rk u b e c t l a p p l y f h t t p s:/r a w.g i t h u b u s e r c o n t e n t.c o m/s l o k/s l o t h/ma i n/p k g/k u b e r n e t e s/g e n/c r d/s l o t h.s l o k.d e v _
14、 p r o me t h e u s s e r v i c e l e v e l s.y a mlk u b e c t l a p p l y -f h t t p s:/r a w.g i t h u b u s e r c o n t e n t.c o m/s l o k/s l o t h/ma i n/d e p l o y/k u b e r n e t e s/r a w/s l o t h.y a ml#部署 s l o t h S L Ok u b e c t l a p p l y -f h t t p s:/r a w.g i t h u b u s e r c
【绿盟 刘文懋】云安全的下半场:原生安全.pdf
【美创科技 薛恺】基于零信任安全模型的数据安全风险治理实践.pdf
【OPPO王安宇】移动通信端云安全新趋势v3.1.pdf
赵亚雄-使用 eBPF+WASM 构建下一代可观测性数据采集基础设施.pdf
【深信服 杨志刚】从局部到全局深信服内部全面零信任实践.pdf
【中孚信息 张振山】场景化数据安全思考与实践.pdf
【白山云 李国】化整为“零”云原生构建白山云零信任安全之路.pdf
【迪普科技 孙健】基于零信任安全架构的开发运维安全管控平台实践-迪普科技.pdf
【李雨航】全球数字契约展望及数字安全报告发布.pdf
【CSA GCR 黄连金】ChatGPT和Plug-In 的 应用和安全.pdf
【CSA GCR 姚凯】CSA 大中华区研究院数据安全工作总结(3).pdf
【Larry】致辞.pdf
【腾讯 田园】零信任可落地性思考.pdf
宋净超-陈屹力-开场致辞.pdf
云原生激活应用构建新范式 -丁宇.pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
线上健身第一股-keep招股说明书(463页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
小红书:2023年度生活趋势报告(34页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
工业4.0俱乐部:ChatGPT认知白皮书(151页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
哈尔滨工业大学:ChatGPT调研报告(94页).pdf