当前位置:首页 > 报告详情

4、玉兆、大龙-使用 FlinkHudi 构建流式数据湖平台.pdf

上传人: 云闲 编号:101791 2021-09-01 26页 6.05MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了Apache Hudi和Apache Flink在构建流式数据湖方面的应用。Apache Hudi是一种数据湖平台,支持事务、开放格式,并与传统的数据仓库如Teradata和MPP DB耦合。自2015年以来,Hudi不断发展,支持即时时间点的状态快照,提供Instant File Format等特性。Apache Flink与Hudi的集成,使得用户可以使用Flink进行流式数据处理,同时利用Hudi的文件管理机制,如Copy On Write和Merge On Read,来优化数据写入和读取。Flink Hudi提供了不同的写入和读取模式,如INSERT、UPSERT和BULKINSERT,以及SNAPSHOT READ、OPTIMIZED和INCREMENTAL等,以适应不同的数据摄取和查询场景。最后,文章还提到了Hudi的未来发展路线图,包括流式语义的增强、Trino Connector、记录级索引和ID-based Schema Evolution等特性。
"Hudi与Flink如何融合构建流数据湖?" "Hudi的文件格式和存储机制是怎样的?" "Hudi的未来发展路线图包括哪些亮点?"
客服
商务合作
小程序
服务号
折叠