《孔罗星-字节跳动观测智能化之路.pdf》由会员分享,可在线阅读,更多相关《孔罗星-字节跳动观测智能化之路.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、字节跳动观测智能化之路服务端观测平台负责人/孔罗星Dev Infra-APM/服务端观测平台负责人个人&团队介绍13年APM领域经验,21年加入字节后开始负责服务端观测平台团队面向整个字节内部开发者提供观测平台,与多个团队协同构建Metrics/Traces/Logs/Events等数据埋点&加工链路&存储,并基于此提供一站式的监控、报警、日志、链路追踪、根因分析等产品化能力What、Why服务端一站式智能观测平台业务和架构配合团队KitexHertzJet RPCMesh日常排障、性能分析架构治理优化稳定性、容灾、大促成本优化服务场景APM as a Service微服务/基础设施/SLO监
2、控数据探索内置应用生态集成LLM AgentCase管理开放平台:观测数据、元数据、算法、workflow报警报警引擎Trace平台功能元数据服务元数据拓扑关系组件元数据观测数据MetricsLogsTracesProfilingsEvents报警统计Duty引擎采样策略高级分析查询检索TCE(容器)FaaSSYS-STE(物理层)语言团队组件(Redis/MySQL)聚类分析日志日志加工标准指标Measurement查询检索现状和挑战业务多样性业务多样性服务整个字节所有业务,包括抖音、懂车帝、飞书、火山引擎、电商等语言x框架:Java/Go/C+/Python x 10+框架超大数据量超大数
3、据量微服务数量:数十万Metrics:数十亿点/sTraces:近亿Span/s日志:数百PB存储量报警:上千万报警规则狂奔的业务狂奔的业务用户规模用户规模内部用户规模最大的产品之一数万UV、数十万PV研发、SRE、QA日常高频使用业务希望保姆式服务平台要最大限度降低使用成本稳定性要求日益提高精益求精的产品设计平台工程整合大量数据&平台多角色需求不同,导致产品较为复杂数据需要长期治理微服务拓扑复杂度高分析难度大多个业务仍处于快速发展期技术栈复杂度越来越高:例如AI Infra业务研发对可观测理解程度不高观测数据标准化程度不一产品体系庞大且复杂覆盖率提升有瓶颈解决思路抄近路-AIOps智能化内置
4、RCA各处集成自动化产品演进覆盖度平台能力场景化应用数据标准双线并行、相辅相成保持产品演进长期方向,建设好基础能力,同时为AI铺路提高AI投入,通过AI应用降低使用成本,同时辅助用户理解产品设计AI排障-引入前手工逐层分析异常指标、Trace、日志,递归查找下游问题AI排障-引入后报警即触发全自动分析,自动寻找上下游关联,智能聚合相同根因报警,给出影响面评估智能化的前置依赖海量观测数据标准化Service AService BService CMySQL ARedis AService AContainerRuntimeRpc clientRpc serverProcessHost 1磁盘IO
5、网络内核CPU内存MySQL AProxyData ServerContainerContainercontainer.cpu.usagejvm.heap.usagerpc.client.latencygo.runtime.coroutine_cnt机房_dcdcidcipv4地址hostipv4hostv4服务集群clusterpaas_clustercluster_namepod namepodname_pod_namepod_name人能很容易使用数据吗?代码或算法容易分析数据吗?平台内各处容易联动跳转吗?不规范的Metrics tag举例日志不同对象/组件指标不一致指标/trace/l
6、og不一致服务/SDK版本不同指标不一致同类SDK语言不同指标不一致用户go.psm.heap.bytego.psm.gcPause.usruntime.go.memory.allocated_bytespsm=xyzruntime.go.gcpsm=xyzgo.psm.numGosruntime.go.goroutine.numpsm=xyzgogo runtimeruntime v1v1 metricsmetricsgogo runtimeruntime v3v3 metricsmetricslanguage=goruntime_sdk_version=1.3.1framework=kit