当前位置:首页 > 报告详情

王华-阿里超大规模Flink集群运维体系介绍(FFA).pdf

上传人: 云闲 编号:101808 2021-01-01 26页 5.42MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里云实时计算高级运维专家王华(花名:尚付)在超大规模Flink集群运维体系方面的经验和成果。王华自2015年起专注于开源大数据实时计算运维,完整经历了阿里巴巴实时计算发展全过程。他负责超大规模实时计算集群架构演进、运维体系建设以及运维产品打造。 主要关键点如下: 1. 阿里实时计算平台经历了三个时代:1.0时代(2013-2017年,三大实时计算引擎并存),2.0时代(2017-2021年,Blink成为唯一实时计算引擎),3.0时代(2021年至今,Flink开源新引擎搭载云原生)。 2. 运维挑战:集群运维(Flink Cluster)和应用运维(Flink Job)。面临的问题包括集群稳定性难题、Flink Job复杂状态抽象、资源调优等。 3. 解决方案:预防减少SLA异常次数,优化快恢缩短SLA异常时长。通过自动化识别、消灭隐患,构建异常自愈服务,实现作业异常问题的一键修复。 4. 成果:沉淀了几十种业务侧最高频的异常规则及治理方案,实现了集群巡检治理、资源优化、硬件自愈等。 5. 运维产品:Flink Job Advisor和Flink Job Operator,提供事前风险体检、事中异常诊断、事后历史回溯全过程一键诊断能力。 6. 技术演进:运维体系全面往云原生化演进,技术内核往智能化&云原生化演进。
"超大规模Flink集群如何运维?" "实时计算运维面临哪些挑战?" "Flink Job如何实现智能化运维?"
客服
商务合作
小程序
服务号
折叠