《孙康-APM演进历程分享.pdf》由会员分享,可在线阅读,更多相关《孙康-APM演进历程分享.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、APM演进历程分享致力于运维系统的构建与优化,推动自动化运维(AutoOps)、数据驱动运维(DataOps)和智能运维(AiOps)等持续发展,以实现运维工作的高效和数智化提升。孙康公司职位SRE 资深技术专家目录01APM工具04总结展望02演进历程03落地实践BizDevOps 企业峰会城市行-北京站APM工具01BizDevOps 企业峰会城市行-北京站APM工具的核心价值技术栈多样化动态资源管理资源利用率与成本控制多云与混合云环境微服务与分布式系统用户体验监控实时性与用户体验故障定位与服务依赖追踪数据处理与分析性能瓶颈识别APM系统复杂性监控挑战安全与合规性BizDevOps 企业峰
2、会城市行-北京站故障诊断与分析实时性能监控监控范围和深度自定义仪表板与报告性能基线与趋势分析技术支持与社区成本效益用户界面与API可扩展性和灵活性选择APM工具的关键考量找到最适合的APM解决方案自动化与集成用户体验监控安全性与合规性APM工具的考量因素演进历程02BizDevOps 企业峰会城市行-北京站从被动监控到主动洞察引入APM解决方案前的时期手工查询和简单的日志聚合进行检索。在2017年开始引入APM产品:微服务架构:APM工具能够追踪跨服务的请求,帮助理解服务间的依赖关系和性能影响。性能监测与优化:APM工具能够实时监测应用程序的性能,单体的、应用的CPU/MEM、线程池等开销,以
3、及响应时间、成功率等指标,改善服务质量。故障诊断:当应用程序出现故障时,APM工具可以提供详细的调用链和堆栈跟踪,帮助开发和运维团队快速定位问题所在,缩短平均修复时间容量规划:提供历史数据和趋势分析,做出更准确的容量规划,确保系统在高负载下也能稳定运行 初始阶段 发展阶段 最新进展BizDevOps 企业峰会城市行-北京站我们的关键决策点 初始阶段 发展阶段 最新进展构建APM系统解决了诸多问题链路跟踪:可以实现链路跟踪,分析调用关系性能监控:基础RED,以及派生指标可监控故障诊断:大幅提升故障定位效率长期使用的过程中,逐渐产生各种问题:数据质量:采集质量问题丢数据、数据格式不规范、串联问题。
4、性能瓶颈:随着业务增长,无法处理日益增加的监控数据量,导致性能瓶颈,影响监控的实时性和准确性,无法满足1分钟发现。功能局限:IT环境的演变,新创国产化等,APM工具可能无法有效监测和管理这些新技术用户体验监测不足:用户对应用的响应速度和稳定性的要求不断提高,页面主键卡顿诊断能力弱:当应用程序出现问题时,如果APM工具的故障诊断功能不足,日常查问题需要批量核查trace和检索支撑不足。BizDevOps 企业峰会城市行-北京站愿景与策略 初始阶段 发展阶段 最新进展未来的APM战略全流程穿越:从用户交互的前端到后台应用,打通数据,统一监控指标融合:Trace/Log/Metrics三大观测支柱的
5、融合。端到端串联:横向和纵向端到端串联快速发现和定位:达成1分钟故障发现、5分钟故障定位多技术栈支持:java,C+,python,以及redis、kafka、国产数据库等LLM:引入大模型,进行探索集成灵活:集成到现有的IT生态系统中,与DevOps工具、CI/CD管道、ITSM系统等协同工作实时性能监控与智能分析:通过分析算法,检测到性能下降或异常行为,为IT团队提供即时的警报和深度分析。profiling结合:深度问题定位,优化程序性能落地实践03BizDevOps 企业峰会城市行-北京站引入CNCF OpentelemetryOpentelemetry开源框架,已经成为事实上的IT行业
6、“可观测性”技术规范和标准2015年,LightStep贡献2017年,谷歌开源2010年,谷歌发表Dapper论文2019年,CNCF批准合并(简称:OTEL)采集处理输出JavaC+.NETGOJS/TSPython.发展历史、行业地位扩展性、兼容性、规范性.支持7种服务器、F5、网络等IAAS设备支持64种各类中间件、数据库、云平台 支持12种语言开发应用的链路采集兼容性摆脱特定厂商依赖确保主流技术趋势全球70家云平台、社区、工具原生支持制定OTLP行业标准数据协议制定OTEL五大观测信号语义规范制定1+13个技术域语义规范(含LLM)规范性数据采集插件式设计,可随意增加/替换数据处理积