1、章剑锋阿里云EMR数据开发负责人大数据三剑合一:大数据三剑合一:FlinkFlink+ZeppelinZeppelin+AirflowAirflowFlinkFlink onon ZeppelinZeppelin 现状现状#1#1Airflow Airflow 简介简介#2#2Zeppelin+Zeppelin+Airflow Airflow#3#3DemoDemo#4#4#1#1FlinkFlink onon ZeppelinZeppelin 现状现状FlinkFlink onon ZeppelinZeppelin 主要主要 FeatureFeature#1多语言支持,并且打通多语言间的协作
2、 支持3种Flink开发语言:SQL,Python,Scala,并且打通各个语言之间的协作多版本Flink支持,同时支持 Flink 1.10 到 1.14 的 5 个大版本,并且同时支持Scala-2.11 和Scala-2.12多种运行模式支持,支持4种不同Flink运行模式:Local,Remote,Yarn,Yarn-Application,K8s#2#3#4交互式开发模式,交互式的开发模式可以大幅度提高开发效率SQL 语言功能增强,同时支持 Batch,Streaming 模式,支持单行/多行SQL 注释,支持指定jobName,并行度,Multiple Insert流式数据可视化,
3、支持流式数据的动态可视化展现,方便调试和大屏展示#5#6Zeppelin 架架构构FrontendFrontendZeppelin ServerZeppelin ServerInterpretersInterpretersFlink on Zeppelin 架构#2 2AirflowAirflow 简介简介AirflowAirflow是一款开源的,分布式任务调度框架,它将一个具有上下级依赖关系的工作流,组装成一个有向无环图。Airflow 架构WebServerWebServerSchedulerSchedulerExecutorExecutorMetadataMetadata databas
4、edatabaseWorkerWorkerAirflow UIAirflow 工作流列表页面Airflow 工作流页面#3 3AirflowAirflow+ZeppelinZeppelinAirflow 痛点 只适合生产,与开发环节脱离 需要使用不同Operator对接各种引擎 生产环境和开发环境不一致导致生产环境出现不可预期问题 代码更新迭代麻烦解决方案:Zeppelin+AirflowAirflow WorkerAirflow+ZeppelinAirflow+ZeppelinZeppelinOperatorZeppelinOperator 是为Airflow 定制的Operator,用于对接Zeppelin提交作业,只需指定 note_id 就可以运行指定的notebook,同时还可以传递参数#4 4DemoDemoDemoDemo