1、拒绝孤岛可观测数据融合分析张城(元乙)-阿里云IT系统的可观测开发模式系统架构部署模式基础设施系统更加复杂开发涉及更多的人运行环境多种多样可观测挑战技术依赖技术依赖发布频率发布频率单一单一异构异构/云云瀑布瀑布敏捷敏捷计算节点数计算节点数静态静态动态动态参与人数参与人数单兵单兵协同协同物理机虚拟机容器微服务少量技术大量开源软件、SaaS一年一次一天一次按需发布OpsDevOpsDevSecOpsDevSecBusOps什么是成熟的可观测方案自动发现服务自动发现基础设施自动化自动生成服务拓扑全栈数据客户端到服务端基础设施到应用IT、商业、Sec一套工具减少跳转上下文缺失降低体验割裂学习代价低易上
2、手统一海量存储超大规模写入长期存储友好Log/Trace/Metric统一数据关联分析完备分析语法跨多种数据源大规模分析能力丰富的上下文关联Meta/CMDB服务/交易上下文数据上下文实时性产生到可见秒级快速返回查询结果实时的告警能力高基数问题来源于细节尽可能保留原始数据数据记录更多维度部分智能化告警收敛基础的异常检测基础的根因分析统一存储实时分析融合分析智能化可观测数据分析发展历程多套系统JaegerGrafanaKibana观测数据采集数据都能用上统一可视化GrafanaLokiTempoMimir降低跳转代价统一Meta数据统一存储分析SLSSLSLogLogMetricMetricTr
3、aceTrace降低维护代价统一分析语言更快更快、更便捷、更有效的、更便捷、更有效的观测数据价值挖掘观测数据价值挖掘:数据融合分析数据融合分析可观测数据融合分析LogsMetricsDBCMDBML模型TracesProfilingNetworkLogin LogoutAccess LogConfigsSyslogNetwork PacketPerfCounterBinlogTracingEventOpenFileOrdersCommandError LogPingPaymentsProfilingUserInfoAudit LogCloudsWeb AccessAndroidIOSCrash
4、ProfilingCMDB用户DB访问日志登录日志用户行为分析反作弊变更管理监控问题定位攻击检测技术难点与挑战统一海量存储数据关联分析实时性高基数PB级规模应对突增的写入统一的存储引擎同类数据源关联跨数据源关联端到端秒级可见交互式分析能力兼顾实时性与性能多维度数据分析内存压力超大规模存储成本兼顾完备性与易用性SLS可观测技术架构可观测统一存储引擎可观测统一存储引擎全栈数据采集全栈数据采集智能算法与编排智能算法与编排日志日志指标指标TraceEventLogStoreMetricStore冷热分离冷热分离实时数据流转与分析实时数据流转与分析实时消费实时消费SQLPromQL独享计算独享计算数据加
5、工数据加工调度引擎调度引擎融合分析融合分析数据导出数据导出异常检测异常检测时序预测时序预测文本聚类文本聚类多维分析多维分析仪表盘仪表盘可视化嵌入可视化嵌入根因定位根因定位打标反馈打标反馈300+源无侵入消耗低自动扩容PB级稳定性高性能交互式易用性可定制多种类功能丰富全栈监控移动端监控TraceCloud LensRUM成本管家日志审计SLSSLS可观测统一平台架构可观测统一平台架构访问偏好写多读少近期数据访问频繁冷热分层Batch写后台Compaction多层缓存分析诉求弹性分析能力语法简洁&完备性QueryPromQL分布式执行SQL负载均衡面向未来可扩展能力计算存储分离无状态数据特性Tag
6、局部访问关键词随机过滤聚合分析列存倒排正排Logs/TracesMetricsML/TMetricStoreLogStoreFIFO QueuePanguPanguOSSOSSData IndexingArchiveManagerCacheManagerCompactionManagerRetentionManagerQuery&Analysis EngineQueryEnginePromQLEngineSQLEngineSLS WorkerSchedulerPut&PullData Management水平扩展带状态数据流控制流OpenAPI数据融合分析核心架构统一的存储引擎Sort By