1、刘桂海/架构师特来电云平台智能运维应用实践特来电云平台智能运维应用实践特来电云平台简介1234Flink在特来电云平台智能运维的未来计划特来电云平台智能运维简介Flink在特来电云平台智能运维的应用场景#1#1特来电云平台简介特来电云平台简介要加强新型基础设施建设(即新基建新基建),发展新一代信息网络,拓展5G应用,建设充电桩充电桩,推广新能源汽车,激发新消费需求、助力产业升级。-2020年政府工作报告充电是关系国计民生的新基建特来电日充电量达到15001500万度,充电的稳定性对云平台提出了非常严苛的要求,需要保证7*24不间断稳定运行,否则会带来严重的舆情问题舆情问题。从无到五,特来电云平
2、台一路V5前行#2 2特来电云平台智能运维简介特来电云平台智能运维简介基于AIOps的智能运维理念智控监析1.监:犹如人的眼睛,全面收集,发现问题2.析:犹如人的大脑,快速分析,分析问题3.控:犹如人的双手,精准执行,解决问题4.智:犹如人的心脏,稳定运行,预测问题“监控”不应是一个词,而应是拆开来看的几个字:NoSQL数据库时序数据库(InfluxDB)智能监控平台智能运维中台主动监控被动监控技术全链路业务全链路系统日志行为日志调试日志异常日志预警分析预警收敛异常检测根因分析异常聚类自动运维看板运维手动运维本地运维变更中控智能监控AgentCMDB智能运维Agent智能分析平台智能控制平台深
3、度学习(TF)高性能消息队列(Kafka)流计算(Flink)机器学习(Python)监控数据服务监控数据可视化文本聚类趋势检测规范支撑流程支撑组织保障系统健康大盘平台支撑智能支撑数据支撑技术支撑发布评估系统监控面板分析数据库(ClickHouse)因果分析App监控全链路压测舆情分析故障预测ChatOps弹性伸缩智能决策系统变更大盘时序数据库(TDEngine)高性能消息队列(Pulsar)图数据库(Nebula)容量评估自然语言处理(HanLP)监控数据挖掘监控数据治理相关性容器监控技术风控预警降噪知识图谱中间件拓扑大盘机器画像微服务画像时序数据库(Prometheus)机器学习(Alin
4、k)基于AIOps的智能运维中台#3 3FlinkFlink在特来电云在特来电云平台智能平台智能运维的应用场景运维的应用场景监控数据:指标、链路与日志MetricsAggregatableTracingRequestscopedLoggingEventsRequest-scoped metricsAggregatable eventse.g.rollupsRequest-scoped,aggregatable eventsRequest-scoped eventsHighvolumeLowvolumePeter Bourgon特来电监控数据处理:指标、链路与日志InfluxDBKafkaAge
5、nt监控指标分析引擎服务链路分析引擎异常日志分析引擎KafkaNebulaElasticsearchGrafanaNebulaStudioKibanaMetricsTraceLogFlume链路关系数据指标聚合数据异常聚类分析异常聚类数据链路关系分析指标聚合分析指标分析链路分析日志分析为什么要进行监控指标分析?特来电云平台,每天收集的监控数据在10T规模,如果这些数据完全落盘,并且在查看监控图表时再进行聚类分析,对数据存储以及查询性能都是极大的压力考验时序数据库KafkaAgentGrafanaFlume如何利用Flink进行监控指标分析?特来电云平台,基于Flink打造的监控数据实时分析引擎
6、,对收集上来的监控数据,基于事件时间,按照数据中心、服务单元、应用集群、应用节点、自定义维度等进行实时聚合分析,建立监控原始数据与聚合数据的关联关系,计算后的聚合数据落盘到时序数据库,便于在Grafana中进行快速展现,部分监控原始数据落盘到HBase,便于通过聚类数据联查到原始数据。InfluxDBKafkaAgent监控指标分析引擎KafkaGrafanaFlume指标聚合数据HBase指标原始数据快速展现通过关联关系,钻取联查详细数据通过拆分聚合数据与原始数据,极大提升了监控数据的分析、展现及联查能力指标分析