1、王华阿里云实时计算高级运维专家阿里超大规模 Flink 集群运维体系介绍自我介绍 花名 尚付,阿里云-计算平台-大数据实时计算运维负责人 自2015年起,一直专注于开源大数据实时计算运维,完整经历了阿里巴巴实时计算发展全过程。负责超大规模实时计算集群架构演进、运维体系建设以及运维产品打造演进历史和演进历史和运维挑战运维挑战#1集群运维集群运维FlinkFlink ClusterCluster#2应用运维应用运维FlinkFlink JobJob#3阿里实时计算运维#1#1演进历史和运维挑战演进历史和运维挑战阿里实时计算平台演进历史1.0 时代2013-2017三大实时计算引擎并存时代(Gala
2、xy/Jstorm/Blink)2.0 时代2017-2021Blink为唯一实时计算引擎大一统时代(ALL On Blink)3.0 时代2021-Flink开源新引擎搭载云原生的新时代(VVP新平台)百万核 算力万级 物理机万级 用户万级 作业超大规模实时计算平台平台架构正从云下架构(Hadoop+Blink)全面往云原生架构(K8S+Flink)大规模演进中阿里实时计算平台规模和技术架构经历了近十年的快速发展实时计算运维挑战运维经历的三大挑战平台运维解决SRE超大规模体量的平台(Flink Cluster)运维难题帮助实时计算用户,解决复杂的应用(Flink Job)运维难题云原生&AI
3、智能化大浪潮下,运维演进和能力提升应用运维云原生&智能运维演进#2 2集群运维集群运维 FlinkFlink ClusterCluster超大规模Flink集群的稳定性难题业务重要且敏感,平台规模大架构复杂,稳定性双重叠加挑战Flink承载了阿里内部全部实时数据业务,包括双11 GMV媒体大屏、阿里妈妈广告计量计费报警、搜索推荐机器学习平台等电商核心业务场景业务场景既重要且实时敏感平台规模大,局部异常是常态几万台独享机器、多地域&多集群布局,规模体量飞增天然带来的平台部署形态复杂,局部异常是常态。Flink Cluster SLASLA可用率精细度量Flink Cluster稳定性Flink
4、Cluster SLIFlink Cluster SLOJM和TM启动中调度JM和TM都正常运行运行JM或TM FailOver异常Flink Job复杂状态抽象成三种简单状态代表SLISLA异常次数SLA异常时长/次ClusterSLA 做好预防,减少SLA异常次数 做好快恢,缩短SLA异常时长Cluster SLA(99.99x%)分钟级可用率来精细化度量集群稳定性集群巡检治理,减少SLA异常次数稳定性预防沉淀了几十种业务侧最高频的异常规则及治理方案全自动化识别、消灭之前“看不见”隐患Flink Cluster 异常自愈服务作业作业.异常作业问题版本用户治理平台升级分析决策隐患(预测+异常
5、)解决(修复+建议)e.g.批量机器Load高/磁盘打满,导致集群大量作业心跳丢失异常e.g.存储集群容量/请求队列打满,导致集群大量作业CPT超时异常e.g.某个版本存在性能/稳定性重大Bug,影响了集群近百个作业导致集群异常的“棘手”场景行为数据集群切流容灾,缩短SLA异常时长2.资源有限,切谁?业务精细化优先级体系,降低优保高优P0P1/P2P3/P4/P5业务优先级3.怎么透明切?存储复用计算透明迁移,业务无感存储State故障集群正常集群P0P1P0P1P0P1P0P1同城双机房部署集群,两两容灾布局RegionAClusterClusterRegionBClusterCluster
6、RegionCClusterClusterRegionDClusterCluster1.往哪里切流?建设Flink Job快速切流的平台容灾能力,让故障恢复“更确定”挑战:集群级重大故障均表现定位难,耗时久,稳定性极其被动SourceSink存储State计算中间结果计算集群作业作业作业.作业是长生命周期,每个要独立迁移故障切流恢复State,续跑计算集群作业作业作业.计算故障故障恢复作业大规模切流的技术方案生产到影子链路一键克隆,超大规模精准造压&控压&稳压能力压测平台压测降级热点限流计算限流业务降级热点均衡Flink 双11大促专项保障低优先级作业快