《08 SRE的新发展和可观测性-中国SRE社区 刘峰老师.pdf》由会员分享,可在线阅读,更多相关《08 SRE的新发展和可观测性-中国SRE社区 刘峰老师.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、SRE的新发展和可观测性SRE是新运维“奇点”,可观测是系统稳定的核心能力中国SRE社区 刘峰老师正文题目正文题目一一.SRE.SRE定义、原则和方法论定义、原则和方法论SRE的基本定义SRE的六大原则SRE的方法论什么是什么是SRESRE?传统运维IaC(基础架构即代码)软件开发、运维开发CI/CD 自动化应用、网络、操作系统、云运维.Google Google:什么是:什么是SRESRE?SRESRESRESRE是一个学科是一个学科SRESRE是一种最佳实践是一种最佳实践SRESRE是一类创新岗位是一类创新岗位S Site ite R Reliability eliability E En
2、gineeringngineeringSRESRE:起源:起源SRESRE:站点可靠性工程(站点可靠性工程(GoogleGoogle负责负责7 7*2424小时运维的小时运维的VPVP命名)命名)1.SRE是学科:使用计算机和软件工程手段设计和研发大型、分布式计算机软件系统;设计和研发大型、分布式计算机软件系统;2.SRE关注:焦点是可靠性可靠性,包括架构设计、运维流程优化“足够可靠足够可靠”;3.SRE主要工作:运维分布式集群系统上的具体业务服务具体业务服务(ServiceService)SRESRE是一种职业是一种职业:专注于软件系统生命周期软件系统生命周期管理的IT工程师Benjamin
3、 Sloss Treynor Google 的副总裁,主要工作就是确保Google 的网站永不掉线SRESRE:起源:起源l ApollosApollos计划中的计划中的SRESREApollo 7 Apollo 7 飞船研发事故的启发:飞船研发事故的启发:1.1.类似的情况不断发生类似的情况不断发生2.2.对于细节的不懈关注对于细节的不懈关注3.3.做好充足的灾难预案和准备工作做好充足的灾难预案和准备工作4.4.时刻警惕时刻警惕5.5.不放弃一切机会去避免灾难发生不放弃一切机会去避免灾难发生以上是以上是SRESRE最重要的理念最重要的理念!l 世界上第一个世界上第一个SRESRE专注于参与阿
4、波罗登月计划阿波罗登月计划的MIT教授 MargaretMargaret HamiltonHamilton服务水平目标运营是软件问题减少琐事 自动化共享所有权降低失败成本核心原则关键成功因素(KSF)Google Google SRESRE 原则原则 PrinciplePrincipleGoogle SREGoogle SRE 实践总结实践总结lSRESRE方法论方法论:1.1.确保长期关注研发工作确保长期关注研发工作2.2.在保障在保障SLOSLO的前提下最大化迭代速度的前提下最大化迭代速度3.3.监控系统监控系统4.4.应急事件处理应急事件处理5.5.变更管理变更管理6.6.需求预测和容量
5、规划需求预测和容量规划7.7.资源部署资源部署8.8.效率与性能效率与性能二二.SRE.SRE的新发展的新发展与与DevOpsDevOps统一文化、融合互补统一文化、融合互补可观测性异军突起、方兴未艾可观测性异军突起、方兴未艾引领平台工程、实现自助平台引领平台工程、实现自助平台新发展之一:新发展之一:SRESRE与与DevOpsDevOps统一文化、融合互补统一文化、融合互补SRESRE负责整个产品生命周期负责整个产品生命周期,关注整体规划整体规划和交付共享平台交付共享平台,促进统一的促进统一的SRESRE和和DevOpsDevOps文化文化304Create Pre-ProdDeploy C
6、odeRun Perf TestRun Security TestCheck MonitorsProd deployRun TestsCreate Test EnvDeploy CodeLoad Test DataBuildRun Unit TestsCode AnalysisCommitterjdoeCommit ID:113Create Prod 大量的自动化工作是“DevDev”领导的(从左到右),领导的(从左到右),流水线大大提高了研发交付效率,但同时流水线大大提高了研发交付效率,但同时具有具有“重重DevDev、轻、轻OpsOps”的特点,落地中的特点,落地中存在很多问题和挑战存在很