《FFA2024分论坛-生产实践.pdf》由会员分享,可在线阅读,更多相关《FFA2024分论坛-生产实践.pdf(603页珍藏版)》请在三个皮匠报告上搜索。
1、快手Flink智能化异常节点治理实践Practice of Automatic Abnormal Node Governance in Flink Cluster at Kuaishou郭旸泽快手技术专家,Apache Flink Committer李国君快手技术专家,Apache Paimon Committer智能发现异常节点的分类与智能检测节点自愈异常节点的启发式自动化运维策略单点容错能力增强Master Failover 与 Task 单点恢复异常节点的智能发现实时数仓构建高吞吐/低延迟的ETL处理商业化广告数据流加工实时数据同步丰富的 Connector 生态AI DatalakeF
2、link+Hudi 构建实时样本湖算法特征计算/样本拼接/湖仓一体数仓电商等业务数仓构建快手Flink平台现状使用方式业务场景快手Flink平台百万级别CU规模万级别用户作业数十亿级别峰值QPS异常数据异常数据导致作业失败硬件故障机器掉盘/CPU故障/内存故障数据倾斜业务数据存在数据倾斜流量压力过大作业资源无法承载峰值流量热点机器单个机器瞬时负载过高网络异常无法访问外部网络/频繁丢包常见作业运维问题作业异常节点异常节点异常导致大规模作业问题某机器掉盘导致该节点上的作业进行Checkpoint时写磁盘卡死,进而造成大量作业反压,输入掉零大促高峰时期,某机器负载过高导致该节点上所有相关作业出现延迟
3、硬件故障热点机器交换机故障导致转发表项异常,部分机器与其他机器通信时频繁丢包导致作业大规模频繁重启网络异常节点异常导致大规模作业问题排查时间长:大量作业失败,很难通过人工排查短时间内定位到真正的问题节点爆炸半径大:问题节点出现在高优队列则涉及较多高优任务,若未能及时排除异常节点则会导致资损异常节点的智能检测基于业务指标:Source延迟/算子吞吐/反压/Checkpoint耗时基于机器指标:CPU利用率/内存利用率/内存延迟/IO延迟基于业务指标的智能检测Source延迟检测器反压检测器Checkpoint检测器延迟检测器投票选出问题节点列表Node1:Job1Node2:Job2.黑名单处理
4、器基于业务指标的智能检测Source延迟检测器根据Source节点延迟情况判断可疑节点根据作业报警配置确定触发阈值延迟并发数小于整体并发30%问题Source数据吞吐低于平均值80%该并发未被下游反压Source0Source2Source1Source3Map0Map1Map2Map3基于业务指标的智能检测反压检测器寻找反压根节点作业必须存在高于阈值的延迟问题并发InPool满了但OutPool未满问题并发数小于整体并发30%问题并发吞吐低于平均值80%Source0Source2Source1Map0Map1Map2Sink0Sink1Sink2基于业务指标的智能检测延迟检测器寻找延迟较大
5、的慢节点作业必须存在高于阈值的延迟问题并发吞吐低于平均值50%问题并发InQueue高于平均值一倍问题并发算子延迟高于平均值80%问题并发数小于整体并发30%Source0Source2Source1Map0Map1Map2Sink0Sink1Sink2基于业务指标的智能检测Checkpoint检测器寻找Checkpoint慢节点问题并发Checkpoint时间高于阈值问题并发数小于整体并发30%Source0Source2Source1Map0Map1Map2基于业务指标的智能检测基于投票算法选出问题节点节点上所有问题作业拥有投票权不少于50%的作业认为该节点为可疑节点则输出Job1Job2
6、Job3Job4Job1Job2Job3Job4Job1Job2Job3Job4基于业务指标的智能检测黑名单处理器根据Task失败情况寻找可疑节点,以下情况将被记录TaskManager心跳超时TaskManager之间网络错误TaskManager被资源底座KillTask失败基于业务指标的智能检测黑名单处理器根据记录频次对TaskManager与Node进行作业级别自动驱逐TaskManagerTaskManager出现两次记录NodeNode出现三次记录基于机器指标的智能检测根据机器指标找出异常节点CPUMemoryCache命中磁盘IO网络丢包故障单启发式自动化运维策略启发式自动化运维