《13-华明-面向稳定性保障的可观测性体系建设心得.pdf》由会员分享,可在线阅读,更多相关《13-华明-面向稳定性保障的可观测性体系建设心得.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、面向稳定性保障的可观测性体系建设心得华 明快猫星云联合创始人,CTO大纲面向稳定性保障的可观测性产品-Flashcat从采集到集成从产品到平台从工具到方案从观测“指标”到观测“对象”从“无效”的规范 到“可用”的规范思考规划:Flashcat 的智能化探索之路1234567面向稳定性保障的可观测性产品-Flashcat1状态正常状态正常可能出现尝试定位和尝试止损过程的反复常态预防状态异常状态异常发现处理状态正常状态正常复盘改进故障开始故障发现故障定位服务止损服务恢复北极星SLO灭火图SLOAI巡检北极星灭火图.事故报告改进项跟进.面向稳定性保障的可观测性产品-Flashcat1u 定 故障 确
2、定业务影响的范围和程度 变业务反馈问题为主动发现u 定 边界 确定问题的范围和对象 下钻追查异常原因和特征下钻定位业务健康状态IT对象健康状态日志分析链路分析事件分析指标分析容量分析下钻定位.u 定 特征u 定 事件 串联数据分析异常ActionableActionable InsightInsight北极星灭火图问题定位矩阵串联打通面向稳定性保障的可观测性产品-Flashcat1北极星灭火图指标分析事件墙链路分析日志分析特征分析日志原文从采集到集成2利旧集成 vs.推倒重来从怀疑到坚定从场景和目标反推产品和技术的演进路径区别“增量”和“存量”问题的处理方法区分国内和国外的国情从产品到平台3产
3、品:最佳实践的落地平台:具备API能力,支持个性化和场景化之外的需求从工具到方案4观测工具平台稳定性保障场景安全审计成本容量。场 景游戏行业门店行业汽车行业。行 业从工具到方案4从工具到方案4从工具到方案4从观测“指标”到观测“对象”5网络DNSMySQL消息队列Redis微服务路由器交换机功能接口基础设施中间件功能系统核心指标1核心指标2核心指标3.核心指标1核心指标2核心指标3.核心指标1核心指标2核心指标3.核心指标1核心指标2核心指标3.核心指标1核心指标2核心指标3.核心指标1核心指标2核心指标3.核心指标1核心指标2核心指标3.核心指标1核心指标2核心指标3.核心指标1核心指标2核
4、心指标3.从观测“指标”到观测“对象”5从“无效”的规范 到“可用”的规范6文档规范自动执行从“无效”的规范 到“可用”的规范6文档规范自动执行思考规划:Flashcat 的智能化探索之路7这一波人工智能一定会颠覆很多行业,包括可观测性但首先,可观测性更像是AI的基础,而不是反过来Data for AI:构建观测数据的“意义”仍然是有很意义的工作,有意义的数据可以大幅减少分析所需的数据量AI for Data:AI 在数据采集的智能化方面或许未来也能够发挥重要价值基于AI的智能问答、智能交互、智能巡检、智能定位等工作是Flashcat 在实践中的方向,并将持续探索。感谢聆听Thank you for listening