《构建观测数据全景打造端到端可观测体系.pdf》由会员分享,可在线阅读,更多相关《构建观测数据全景打造端到端可观测体系.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、构建观测数据全景打造端到端可观测体系周洋阿里云资深技术专家应用可观测团队负责人Contents目录01端到端可观测概述02端到端可观测系统设计03阿里云可观测产品发布可观测对 IT 数据的价值端到端可观测体系建设的必要性端到端可观测体系的技术挑战和技术目标通用架构设计前沿场景探讨04阿里云客户可观测最佳实践分享微服务化DevOps/运维自动化业务中台化全面容器化/云化云原生微服务架构下的可观测基础设施技术中台下的稳定性运营中心云原生时代的标准化观测服务多元化场景下的端到端观测服务Serverless阿里云十年演进,可观测进入端到端时代以上数据来源于真实客户授权数据上线效率60%迭代效率200%
2、网站速度50%运维工作量30%问题定位时长60%故障恢复时长20%可观测助力企业实现 IT 数据最大化超过 63%的企业组织拥有超过 10 种 以上的工具,然而故障排查依然面临着困难可观测不是工具堆砌,端到端建设势在必行引用ESG调查和信通院可观测性成熟度白皮书数据对象多,可观测工具分散浏览器、移动端、应用、服务、容器、物理机、网络设备、网络流量等,每一层都有各自的采集工具企业级需求多,生产关系复杂多环境可观测、压测&演练&发布场景视图、计量计费、权限划分、超大热点等企业级落地场景模型不一致,存在数据孤岛Trace、Metric、Log、Profile、Event、Exception、Meta
3、data 等,不同模型数据缺少关联标准和最佳实践封闭与开源,面向云原生的运维架构如何平衡自研技术和开源技术的路线选择,如何提升可观测系统本身的运维效率和可用性构建端到端可观测的技术挑战稳定99.95%性能5GB+/分钟*租户端到端观测平台既要提供端到端可观测应用能力,也需要有明确数据指标指导规模化落地。成本0.4元/GB端到端可观测体系的技术目标处理网关缓冲统一数据处理()处理网关缓冲统一数据处理(Meta)端到端可观测系统架构容器监控智能告警持续剖析性能测试云拨测应用安全前端监控链路追踪应用监控可观测应用统一客户体验全局数据图谱处理网关缓冲统一数据处理(Trace)Metric StoreO
4、penTelemetry等主流开源eBPF 探针多语言探针ExportersAPIs 及其他统一数据存储处理网关缓冲统一数据处理(Metric)智能洞察统一模型(读/写)调用链/指标等模型收敛/告警/计量/模型/接入中心控制面板告警管理应用管理探针管理实体对象实体关系Schema数据汇聚场景算法专家分析账单管理统一数据采集端到端可观测体系的通用架构Trace StoreLog StoreMeta Store兼容开源完全兼容 OpenTelemetry定期同步开源代码性能提升应用挂载探针启动时间消耗降低50%探针包大小减小40%降低到50M挂载探针后接口 rt 增长不超过5%自监控增强全方位自监
5、控数据:性能数据、事件、插件状态数据动态功能降级:细粒度功能管控功能增强丰富采样策略:自定义采样、错慢全采代码热点直击根因统一数据采集,全面兼容开源ARMS 统一数据链路OpenTelemetry Java Agent 底座应用监控动态配置自监控应用安全性能诊断内存诊断TraceMetricTrace GatewayMetric GatewayMeta GatewayCPU诊断内存诊断白屏arthas黑屏arthas三方依赖攻击数据内存dump自适应采样自动收敛以上数据来源于ARMS4.0和ARMS3.0探针对比,应用类型为WEB应用(访问redis和mysql),压测环境(8c8g x 5节
6、点K8s集群;采样配置10%;TPS3000/TPS10000)统一数据链路,构建可观测数据标准生态技术难点一如何设计通用架构,提升数据吞吐架构设计高度抽象,提供“搭积木”的基础能力关联依赖分离,精细化拆分业务,线性化处理架构技术难点二如何融合多源数据,统一可观测数据标准支持开源、自研 10+种协议,新协议搭积木式支持标准化数据模型及底层存储,兼收并蓄,开放统一技术难点三如何降低运维成本,提升数据链路稳定性计算逻辑隔离,结合自研二级调度,精细化控制资源数据链路全面云原生化,面向容灾设计数据缓冲数据解压缩&反序列化配置管理Trace StoreTrace GatewayMetric Gatewa