当前位置:首页 > 报告详情

刘岩- Apache Atlas遇上Apache Flink.pdf

上传人: 云闲 编号:101860 2021-01-01 27页 5.49MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了为什么Apache Flink需要对接血缘系统Apache Atlas,并详细介绍了对接技术实现及未来展望。 首先,Flink的三大应用场景包括Data Pipeline、Analytic和Event Driven Application等。然而,Flink需要对接血缘系统的原因在于其离线数仓的基本流程和问题,其中最大延迟=T+N天,N≥1。为了实现数仓的实时加工链路,Flink需要与Atlas进行对接。 Apache Atlas是一个开源的元数据管理解决方案,提供了元数据检索、标签和血缘管理等功能。其核心功能包括对元数据的全量收集和多种查询方式,对元数据进行打标签以便反向查找,以及对纳管的数据资产进行交互式血缘分析和管理。 对接技术实现方面,首先需要在Atlas中定义Flink的相关类型,然后在Flink中定义相关的Hook以抓取元数据。具体来说,需要修改ClusterClientJobClientAdapter、AbstractJobClusterExecutor、AbstractSessionClusterExecutor、LocalExecutor、FlinkKafkaConsumerBase、FlinkKafkaConsumer、FlinkKafkaProducer等类,并新建JobListenerFactory、StreamExecutionEnvironment、StreamingFileSink等。 最终的效果包括单个Flink任务单任务的上下游全景链路和多个Flink任务多任务血缘关系和全景链路传输链路的安全控制。然而,当前实现的不足之处在于Hook段代码获取元数据的侵入性太大,且支持的Flink Source/Sink不完整。后续改进方向包括减少侵入性,增加对更多Flink Source/Sink的支持等。
Flink为何需要对接血缘系统? Apache Atlas的核心功能有哪些? 如何实现Flink与Apache Atlas的对接?
客服
商务合作
小程序
服务号
折叠