当前位置:首页 > 报告详情

刘征-SRE提高服务质量和稳定性的套路.pdf

上传人: B**** 编号:28763 2021-01-31 29页 1.97MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了站点可靠性工程(SRE)的概念和实践,以及与之相关的服务级别协议(SLA)、服务级别目标(SLO)和服务级别指标(SLI)。SRE是一门致力于帮助组织在其系统、服务和产品中持续实现适当可靠性水平的工程学科。关键点如下: 1. SRE的主要职责包括为服务设置SLA、度量和报告SLA的实时性能、使用错误预算和门限发布、保持SRE的Ops工作量在50%等。 2. SLA是基础架构服务/IaaS、文档销售/用户客户、SRE产品产品、SRE DEV、延时流量错误饱和、SLOSLI应用系统等各个环节的沟通基础和语言。 3. SLI是服务质量/水平指标,包括可用性、延迟、流量、正确率、质量、新鲜度、持久性等。 4. SLO是服务质量/水平目标,例如95%的HTTP请求由负载均衡(ELB)监控到得到成功的返回。 5. 实施SRE需要得到领导层的支持,深入学习SRE相关知识,做好SLO和错误预算等基础工作。
"SRE背后的算法和政治是什么?" "如何有效地实施SRE和错误预算管理?" "SRE在提高系统可靠性方面扮演什么角色?"
客服
商务合作
小程序
服务号
折叠