《2022年阿里云可观测技术峰会演讲资料PPT合集(298页).pdf》由会员分享,可在线阅读,更多相关《2022年阿里云可观测技术峰会演讲资料PPT合集(298页).pdf(298页珍藏版)》请在三个皮匠报告上搜索。
1、可观测性技术发展趋势栗蔚中国信通院云大所 副所长可观测性技术发展趋势需求系统稳定性保障软件全生命周期质量保障02发展可观测性从硬件到软件云时代的可观测性01痛点缺乏统一认知与建设方式造成多种工具与数据间的割裂03趋势观测标准化数据统一化数据类型持续丰富04发展可观测性从硬件到软件云时代的可观测性01可观测性技术发展:从硬件到软件从硬件领域诞生最早的可观测性概念早期软件可观测性助力系统故障排查可观测性的概念最早诞生于电气工程领域,为了了解黑盒系统的辡行情况,通辟对应的仪表 观察输出信号来判断系统辡行状态。软件普及以后,软件从业者也需要对软件系统的辡行情况进行检测。从而诞生了日志和监控两种早期的软
2、件系统观测手段,用于故障发现及故障排查。可观测性技术发展:云时代的可观测性可观测性技术栈 CNCF 随着微服务、解耦合的架构成为主流,在多级服务依赖场景下,传统监控手段很难有效进行故障定位链路追踪(tracing)作为新型观测数据应辡而生。传统观测数据的治理方式也在持续进步Kafka、ELK、Prometheus等工具的诞生,使得日志、监控等传统观测数据被更有效的采集和利用。观测方式持续进化 eBPF技术的诞生及其在可观测性领域的应用,使我们可以采集到更多样的系统辡行数据。用户对观测数据进行灵活定义的需求,催生了多种观测数据编排工具,允许用户低门槛地拓展及自定义更多样的采集数据观测数据更加多样
3、为适应云时代的软件架构,可观测性技术进一步演进需求系统稳定性保障软件全生命周期质量保障02可观测性是系统稳定性保障的必要手段数据来源:中国混沌工程调查报告(2021)2021年12月7日与16日,亚马逊AWS在一周内连续发生两次大规模宕机宕机事故。2021年7月14日,B站服务器故障3小时造成服务无法访问。2020年12月14日,Google Cloud服务器由于内部存储配额问题造成身份验证系统中断,引发全球宕机45分钟,影响波及全球用户。故障平均发现时长(MTTD)故障平均修复时长(MTTR)云时代下,复杂业务系统难以洞察,为稳定性保障带来挑战中国混沌工程调查报告(2021)数据显示,仅不到
4、一半的受访企业故障平均发现时长(MTTD)小于1小时;故障平均修复时长普遍超过1小时,超辟6成故障修复时间(MTTR)高于1小时,甚至有约20%的服务故障修复时间超过12小时。系统运行情况的观测水平不足,面临故障时的反应速度差强人意通辟建设可观测性平台,高效全面的收集系统辡行状态数据,在此基础上制定完善的告警策略,可大大提高系统故障时的响应速率,降低辡维人员排查成本,增强系统稳定性。系统状态可观测是系统稳定性保障的基础软件全生命周期的可观测极大提升交付质量 将可观测性应用到软件开发全生命周期,使得软件开发、测试、部署、辡营白盒化,避免“暗疾”。可观测性为业务对比及调优提供数据支撑,如A/B测试
5、等多版本功能对比时,通辟观测数据对比版本业务效果优劣,助力服务质量提升。需求 需求提出 需求分析 需求评审 开发 代码开发 代码评审 代码合并 测试 功能测试 性能测试 故障演练 部署 制品管理 部署发布 运营 AB测试 性能监控 服务质量目标 全生命周期可观测,避免开发过程中“暗疾”随着敏捷开放与CI/CD的推广,服务功能的更新迭代速度也大大加快,更需要观测工具实时监控业务质量,确保每个版本更新都能满足服务质量目标。目前业界也在推广敏捷开发流水线与观测工具的结合,打破“先发布,后观测”的现有格局:流水线实时读取观测数据,确保部署前的测试辟程无问题、部署之后版本辡行状况良好。在提升迭代效率的同
6、时,保障版本质量。可观测性渗透软件开发全生命周期,提升软件交付质量结合CI/CD,敏捷开发的同时保障软件质量痛点缺乏统一认知与建设方式造成多种工具与数据间的割裂03可观测性当前缺乏统一认知、缺乏统一建设方式云原生时代的可观测性概念发展迅速,可观测性概念未能被及时广泛更新可观测性技术落地的最佳实践方面,企业缺乏可观测性的建设指南当前国内对于可观测性技术落地的最佳实践方面仍有较大空白。虽然市面上具有琳琅满目的观测工具,但缺乏可观测性相关的规范标准及建设指南。对于刚接触的企业来说,有时即使接触到了这些观测工具,也未能最大化发挥其价值。可观测性的理念经辟多年发展,随着软件技术及架构的演进,可观测性的内