1、罗宇侠目录结构化数据文本图像多模态数据Unify CatalogOpen Datalake format多模态数据统一存储,满足 AI模型训练对多模态数据的要求统一元数据实现数据血缘追踪,权限管理,确保 AI 模型调用的数据质量和可追溯数据湖廉价存储特性允许企业积累海量数据,为 AI 提供海量训练语料1234实时更新大语言模型的知识库实时感知用户的上下文实时数据支持模型的在线学习模型根据用户实时反馈进行调整Compaction ServiceTablePartition 1Partition 2Partition 3通过分区列Bucket 1Bucket 2Bucket 3通过分桶列Fluss
2、 ClusterLake TieringService1.request tableTiering Coordinator2.assign bucket2.assign bucket2.assign bucketTiering WorkerTiering WorkerTiering WorkerTiering Committer mit to mit lake snapshotFluss ClusterLake TieringService1.request tableTiering Coordinator2.assign bucket2.assign bucket2.assign bucke
3、tTiering WorkerTiering WorkerTiering WorkerTiering Committer mit to mit lake snapshotLake Tiering Service 2Fluss ClusterLake Tiering Service 1Tiering CoordinatorTiering WorkerTiering WorkerTiering Worker无状态服务,秒级别扩容Lake Tiering Service 3FlussTiering Committer mit to mit lake snapshotLake Tiering Serv
4、ice“snapshotId”:2“bucket1”:offset1“bucket2”:offset21.snapshot 2 读 bucket1的数据2.从 log offset1 开始订阅 bucket1 的数据3.sort merge“snapshotId”:2“bucket1”:offset1“bucket2”:offset2 bucket1bucket2partition=20250411bucket2 流存储成本 降低 10 倍Kafka实时数据全部保存在本地磁盘中Fluss历史数据都保存在数据湖中本地磁盘仅仅需要保存几小时热数据 3 Days6 Hours离线数据保存在数据湖中
5、Flussdata数据需要保存两份没有增强 LakeHouse数据湖表难以与 Kafka Topic 对齐Confluent TableflowFluss 湖流一体VS数据只需要保存一份增强 LakeHouse 新鲜度到秒级数据湖表与 Fluss 表一一对齐Step1:启动 Tiering ServiceStep2:创建湖表Step3:Flink 读 Fluss 湖表Step3.1:Union Read 读全量数据Step3.2:Lake Read 只读湖上数据Step4:StarRocks 分析湖上数据Union Read 能力对接 StarRocks&Spark 等查询引擎湖生态对接 Iceberg&HudiUnion Read 支持 deletion vector,大幅提升主键表的性能大模型正在重新定义软件Large Language Model Is Redefining The Software