《1.占绍雄.pdf》由会员分享,可在线阅读,更多相关《1.占绍雄.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:jiimmyzhan(占绍雄)腾讯腾讯 BiFangBiFang 流湖一体原理和实流湖一体原理和实践践目录目录0 1定位和场景定位和场景0 2架构原理架构原理0 3业务实践业务实践0 4未来规划未来规划0 1 定位和场景定位和场景Apache PulsarApache Iceberg流湖融合流批处理统一兼容主流计算引擎(Spark/Flink/StarRocks)全增量一体实时写入/消费实时高效查询端到端实时可见系统定位适用场景-全增量查询消息队列数据 消息队列中间数据不可查 不适用于数据的长期存储 同步任务资源浪费和一致性问题流湖元数据同步实时采集适用场景-实时多维分析数据湖DWS
2、数据服务/BIDWDODS实时采集 总体链路延迟低 外表方式直连 StarRocks 全量数据无延迟查询适用场景-统一湖流数据存储 Lamda 架构成本高 数据湖新鲜度不够 实时/离线对账困难数据服务实时采集实时入湖数据服务实时采集业界对比特性特性腾讯 BiFangApache Fluss抖音抖音 BTS BTS定位定位消息队列、数据湖统一存储引擎,支持全增量一体实时数据处理实时分析的可扩展流存储,作为数据湖实时数据层低延迟高吞吐的流批一体存储服务性能性能实时写入和查询,全量数据秒级可见秒级写入和查询秒级写入和查询存储方式存储方式Kev/Value(进行中)日志存储 文件存储Kev/Value
3、 日志存储Kev/Value日志存储 消息队列消息队列Pulsar 协议Kafka 协议Kafka 协议应用场景应用场景查询最新/全量状态实时流分析实时/历史数据分析离线计算查询最新状态实时流分析历史数据分析实时流分析实时/历史数据分析离线计算数据生命周期数据生命周期短期+长期存储短期+长期存储短期+长期存储引擎支持引擎支持Flink/Spark/StarRocksFlinkFlink/Spark/Presto0 2 架构原理架构原理整体架构Log WriterOffload ServiceTransaction ManagerManifest StoreManifest ServiceFil
4、e ServiceBookKeeper(Distributed Write Ahead Log)Data LayerMetadata LayerStreaming ReadRewriteCommitStreaming WriteCatalog Service核心流程Transaction ManagerLog WriterManifest StoreManifest ServiceManifest FileBiFang FilessendsubscribeBookkeeperAO ServiceLedger-1Ledger-2Ledger-NManifest FileParquet Files
5、Parquet FilesBiFang FilesBiFang FilesManifest FileManifest FileManifest FileParquet FilesManifest FilereplaceHDFSDataControlStreaming R/WcommitBatch R/WRealtimeBiFang ManifestIceberg Snapshot数据组织Table(Topic)Topic Partition1Topic Partition2Topic Partition3Ledger1(L1)Ledger2(L2)Ledger3(L3)Ledger4(L4)p
6、art1(Entry 1-3)part2(Entry 4-5)part1(Entry 1-6)part2(Entry 1-5)part1/L1_1-3.logpart2/L1_4-5.logpart1/L3_1-6.logpart2/L4_1-5.logab.parquetcd.parquetef.parquetrewrite Table 和 Topic 一一对应 Table 分区数据分布在不同Topic 分区内 Table 分区数据持久化并产生逻辑文件记录实际存储位置 逻辑文件定期提交到 Iceberg 实时写入 Iceberg Record 写入 M