报告预览

4、李劲松-基于 Flink Dynamic Table 构建流批一体数仓.pdf

编号：101913

PDF 31页 4.43MB 下载积分：VIP专享

下载报告请您先登录！

4、李劲松-基于 Flink Dynamic Table 构建流批一体数仓.pdf

1、李劲松/阿里巴巴技术专家基于 Flink Dynamic Table 构建流批一体数仓业务痛点动态表流式数仓PLAN#2#3#4#5#1业务需求#1 1业务需求业务需求Streaming ETL搭建实时数仓搭建实时数仓Day ResultsWeek ResultsMonth ResultsJoinAggregationsODSDWDADS BOSS:快快快！给我看到实时的数据！即席查询与数据订正即席查询与数据订正JoinAggregationsODSDWD BOSS:我能不能随便查查数仓的数据？BOSS:有脏数据？清理下？Filter/ProjectDay ResultsWeek Result

2、sMonth ResultsIcebergHudiPresto/Spark/Hive即席查询Spark/Hive分区重刷新增实时业务指标新增实时业务指标JoinODSDWD BOSS:来，给我新增一些业务指标！IcebergPresto/Spark/HiveFilter/ProjectSpark/Hive分区重刷Day ResultsWeek ResultsMonth ResultsHybrid Source-Aggregations即席查询Hudi维表节省成本维表节省成本ODSDWD BOSS:成本太高了，给我省着点！IcebergPresto/Spark/HiveFilter/Projec

3、tSpark/Hive分区重刷Day ResultsWeek ResultsMonth ResultsHybrid Source-Aggregations即席查询HudiLookup JoinProject复用我们真的需要这么多系统吗？#2 2业务痛点业务痛点实时数仓痛点实时数仓痛点 Kafka 成本昂贵Kafka 只保留最近数据导出到 Hive？系统复杂度 Kafka 难以查询行存：几乎不可查询导出到 KV engine/OLAP，系统复杂度流计算难以使用各种 Changelog Kind，增量计算模型？“sink only accepts append-only messages”数据

4、怎么多了？手动去重？流批一体难以达成流批割裂，数据、表结构和计算越行越远流批难以协作，比如 backfilling、流连接批维表workaroundworkaround：中间数据导出去：中间数据导出去HologresClickHouseIcebergHudi带给用户的复杂：Append Only&Upsert Primary Key&Timestamp 依赖 State 流与批不一致的体验带给平台的复杂：运维成本：Maintain Servers 学习成本：用法各不相同打通成本：不同系统难以打通#3 3动态表动态表RethinkRethink 流和批流和批Snapshot1Snapsho

5、t2Snapshot3Changelog(Binlog,WAL)流数据Database:统一流存储和批存储批数据数据仓库的流批一体存储：Database 的体验！动态表动态表：全新的：全新的FlinkFlink内置存储内置存储HologresDorisHudiClickhouseIcebergKafkaFlink 动态表 Snapshot+Log 满足所有 User Case 存储易用直接查询DFS动态表：存储结构动态表：存储结构Distributed File System动态表存储Log QueueSinkStreaming Reading(Read Changes)Batch Read

6、ing(Read Snapshot)Lookup Join(Read Snapshot by Key)ColumnarMerge Tree动态表：流批一体动态表：流批一体读取流读：读取 Log Changes批读：读取 Snapshot流批融合：Hybrid 读Lookup：支持点查写入流写：持续插入批写：支持分区、支持Overwrite Lake StoreOn DFS，无服务，计算存储分离列存高性能分析Batch WriteStream WriteBatch ReadStream Read动态表：全面支持动态表：全面支持 SQLSQLCREATE TABLE user_behavior

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（4、李劲松-基于 Flink Dynamic Table 构建流批一体数仓.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。