罗宇侠-Fluss 湖流一体:Lakehouse 架构实时化演进.pdf

编号:627138 PDF 36页 3.10MB 下载积分:VIP专享
下载报告请您先登录!

罗宇侠-Fluss 湖流一体:Lakehouse 架构实时化演进.pdf

1、罗宇侠目录结构化数据文本图像多模态数据Unify CatalogOpen Datalake format多模态数据统一存储,满足 AI模型训练对多模态数据的要求统一元数据实现数据血缘追踪,权限管理,确保 AI 模型调用的数据质量和可追溯数据湖廉价存储特性允许企业积累海量数据,为 AI 提供海量训练语料1234实时更新大语言模型的知识库实时感知用户的上下文实时数据支持模型的在线学习模型根据用户实时反馈进行调整Compaction ServiceTablePartition 1Partition 2Partition 3通过分区列Bucket 1Bucket 2Bucket 3通过分桶列Fluss

2、 ClusterLake TieringService1.request tableTiering Coordinator2.assign bucket2.assign bucket2.assign bucketTiering WorkerTiering WorkerTiering WorkerTiering Committer mit to mit lake snapshotFluss ClusterLake TieringService1.request tableTiering Coordinator2.assign bucket2.assign bucket2.assign bucke

3、tTiering WorkerTiering WorkerTiering WorkerTiering Committer mit to mit lake snapshotLake Tiering Service 2Fluss ClusterLake Tiering Service 1Tiering CoordinatorTiering WorkerTiering WorkerTiering Worker无状态服务,秒级别扩容Lake Tiering Service 3FlussTiering Committer mit to mit lake snapshotLake Tiering Serv

4、ice“snapshotId”:2“bucket1”:offset1“bucket2”:offset21.snapshot 2 读 bucket1的数据2.从 log offset1 开始订阅 bucket1 的数据3.sort merge“snapshotId”:2“bucket1”:offset1“bucket2”:offset2 bucket1bucket2partition=20250411bucket2 流存储成本 降低 10 倍Kafka实时数据全部保存在本地磁盘中Fluss历史数据都保存在数据湖中本地磁盘仅仅需要保存几小时热数据 3 Days6 Hours离线数据保存在数据湖中

5、Flussdata数据需要保存两份没有增强 LakeHouse数据湖表难以与 Kafka Topic 对齐Confluent TableflowFluss 湖流一体VS数据只需要保存一份增强 LakeHouse 新鲜度到秒级数据湖表与 Fluss 表一一对齐Step1:启动 Tiering ServiceStep2:创建湖表Step3:Flink 读 Fluss 湖表Step3.1:Union Read 读全量数据Step3.2:Lake Read 只读湖上数据Step4:StarRocks 分析湖上数据Union Read 能力对接 StarRocks&Spark 等查询引擎湖生态对接 Iceberg&HudiUnion Read 支持 deletion vector,大幅提升主键表的性能大模型正在重新定义软件Large Language Model Is Redefining The Software

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(罗宇侠-Fluss 湖流一体:Lakehouse 架构实时化演进.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠