《灵迹(Dynatrace):2022年网站可靠性工程现状报告(46页).pdf》由会员分享,可在线阅读,更多相关《灵迹(Dynatrace):2022年网站可靠性工程现状报告(46页).pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、网站可靠性工程现状报告2022 版本调查报告由 Dynatrace 提供网站可靠性工程现状 2022 版2随着组织寻求驾驭云自动化以加快数字化转型,网站可靠性工程(SRE)已经走上了中央舞台。大多数组织在采用网站可靠性工程时仍处于相对不成熟的阶段,网站可靠性工程是一个经常被误解的专业。首先,网站可靠性工程涉及创新、教育及赋能。它推动开发团队之间的一致性并为共同合作提供支持以确定最佳实践,使团队能够跨专业进行规模化的自动化处理,以符合组织的业务、安全、质量及性能目标。开发流程的自动化、服务水平目标(SLO)的配置,或者避免超出错误预算的修复和解决方法的制定,不能完全由一个团队负责。也不能只由一个
2、团队来分析漏洞或者建立自行修复、深入应用和基础设施的可观测能力。如果所有这些工作都由一个团队完成,网站可靠性工程将成为又一个传统运维或安全职能。网站可靠性工程正在演变为更具战略性的角色,侧重于为开发团队配备他们推动当今开发和创新所需的工具、数据及能力。网站可靠性工程还具备有利条件帮助组织应对各种新挑战,例如在云原生交付过程中的新技术、语言、平台及工具的发展,这些领域出现了复杂性大爆发。目前,在云原生计算基金会(CNCF)生态体系中有 1,000 多种解决方案,数量多到任何单独的开发人员或团队都无法管理。因此,各种软件开发群体不断涌现,他们拥有零散的知识、工具及喜好。这样就有可能对可观测能力、自
3、动修复及漏洞管理采用某种标准方式,而这在整个开发生命周期中推进可靠性是不可或缺的。因此,为网站可靠性工程定义一条“金光大道”至关重要开发团队可以采取的一组关键步骤驾驭这些复杂性、实现他们的目标,无论他们使用什么样的工具。涵盖开发安全运维生命周期的自助服务式可观测能力的可用性以及监测即代码方法至关重要,它们使得开发团队只需几次点击即可在其应用内建立反馈回路。这样,网站可靠性工程将率先由基础自动化阶段进入到客户体验和业务成效的智能调度阶段。通过自动修复云应用、迅速根据业务需要扩充,同时自动做到既可靠又安全,这将赋能开发团队以前所未有的速度推动转型。本报告剖析了当前网站可靠性工程成熟度,识别出组织在
4、错综复杂的云原生开发中正在应对的关键发展趋势和挑战。这份报告展示了来自世界各地组织的 450 个网站可靠性工程的汇总数据,获得了来自这些推动可靠性最佳实践的第一手经验。我希望您能从这些内容中找到有价值的见解,帮助您定义自己的金光大道,让网站可靠性工程更上一层楼。BerndGreifeneder Dynatrace 创始人兼首席技术官前言网站可靠性工程现状 2022 版3Contents引言执行概要.4第 1 章网站可靠性工程的发展.5第 2 章服务水平目标的角色.16第 3 章网站可靠性工程成功的关键.32结束语.44方法论.45网站可靠性工程现状 2022 版4网站可靠性工程日渐成熟,但成熟
5、的速度还不够快 随着组织对网站可靠性工程的战略价值理解加深,网站可靠性工程师(SREs)越来越受到欢迎。但这些人供不应求,因此找到支持、促进其工作的方式至关重要。网站可靠性工程实践日益成熟,由于实践者越来越多地参与属于生命周期初期的架构设计、软件开发及测试过程,这些实践正缓慢地“前移”。这些实践还促进了开发安全运维实践的普及,从而确保安全在开发生命周期的各个阶段成为重中之重,但这些趋势需要提速。服务水平目标对于网站可靠性工程不可或缺,但难点在于充分发挥其全部潜能 尽管发展的重点放在衡量成功的服务水平目标(SLO)上,但几乎所有的网站可靠性工程师都表示,定义和制定这些服务水平目标是一个严峻挑战。
6、但其中的大部分问题属于战术问题,有了正确的方法就很容易克服。评估服务水平目标仍是一个混乱的过程,需要在整个组织内以更统一、更有效的方式去定义和实施,这是因为许多组织对于服务水平目标的归属仍不明确,将太多的难题都甩给了网站可靠性工程师。为获得成功必须加倍努力减少网站可靠性工程实践的繁重工作 在网站可靠性工程实践中,自动化的应用越来越普遍,但效果有好也有坏。组织必须找到差异并运用战略和解决方案,以提高其网站可靠性工程师的生产率。人工智能运维和一体化可观测能力解决方案对于将网站可靠性工程实践扩大到整个组织日益重要,但不能只是将它们作为现有工具链之上的一层。执行摘要本报告基于对 450 个网站可靠性工