杨关锁-StarRocks x Iceberg 云原生湖仓分析技术揭秘与最佳实.pdf-三个皮匠报告

杨关锁-StarRocks x Iceberg 云原生湖仓分析技术揭秘与最佳实.pdf

当前位置：首页 > 报告详情

杨关锁-StarRocks x Iceberg 云原生湖仓分析技术揭秘与最佳实.pdf

上传人： Fl****zo 编号：624555 2025-03-31 PDF PDF 33页 3.63MB

该报告所属合集： DataFunSummit 2025 数据湖·存储、计算与AI融合创新峰会嘉宾演讲PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

已收藏

版权投诉

/33

立即下载

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

《杨关锁-StarRocks x Iceberg 云原生湖仓分析技术揭秘与最佳实.pdf》由会员分享，可在线阅读，更多相关《杨关锁-StarRocks x Iceberg 云原生湖仓分析技术揭秘与最佳实.pdf（33页珍藏版）》请在三个皮匠报告上搜索。

1、StarRocks x Iceberg：云原生湖仓分析技术揭秘与最佳实践演讲人：杨关锁镜舟科技研发工程师StarRocks Lakehouse架构介绍01StarRocks x Iceberg 极致性能揭秘02StarRocks x Iceberg最佳实践03近期规划04目录CONTENTSStarRocks Lakehouse架构介绍什么是LakehouseLakehouse兼具数据湖、数据仓库优势一种新的架构范式，而非简单湖仓组合业务价值开放统一的数据存储，Single source of truth基于一份数据，支持多样化的 Workload，服务企业 AI、BI 的数据应用AIBI

2、BatchStreamingAnalyticsData lake如何构建LakehouseSTORAGEObject Storage 作为统一存储底座开放的数据存储格式CATALOG数据以 Catalog 形式向上层提供统一的数据访问控制、数据治理ENGINES计算引擎解决各个场景的需求CATALOGIcebergPaimonHiveHudiData lakeObject StorageSparkFlinkStarRocksSTORAGEENGINES基于StarRocks构建Lakehouse直接查询物化视图透明加速Lakehouse对比项Data PipelineETL 作业同步数据无须维

3、护 ETL 作业Data Reliablity两份数据，口径不一致Single source of truthData Freshness等待数据同步时间数据入湖后即可查询Data Storage Cost冗余数据存储存储一份数据分层架构LakehouseLakehouse架构对比StarRocks x Iceberg 极致性能揭秘StarRocks查询Iceberg基本流程FEBEslice itdata filesscan rangesBEBEHDFS/OSS/S3ParquetORCCSVHMS/Glue1.Get metadata(tables,partions,files.)2.Sl

4、ice files into scan ranges3.Select BE for each scan range4.Assign scan ranges to BE5.Read data from remote storageFetch and parse metadata is slowFile reader is not efficientExecution plan is not optimalRemote IO is slowWhy its not fast enough?Iceberg Metadata Cache性能痛点元数据文件解析慢访问效率低Metadata Cache缓存解

5、析后的元数据支持后台增量刷新Iceberg Distributed Metadata Plan性能痛点Plan阶段耗时过长，特别是元数据文件解析速度慢对FE节点的CPU和内存依赖过重当表的元数据很大时，Iceberg Job Planing耗时显著增加Distributed Metadata PlanIceberg Job Planing性能提升数倍FE节点的内存和CPU开销显著降低Iceberg Job PlaningHow metadata cache and distributed metadata plan works?BEMetaData Managermanifest fileIn

6、-memory deserialized manifest cacheLocal manifest file cache1.检查目标manifest文件是否存在2.检查目标manifest文件是否存在BEBE3.2.执行distributed manifest plan job3.1.直接从远端获取并解析manifest文件4.从远端获取并解析manifest文件 FE检查本地meta cache确定是否触发distributed manifest plan job主要环节统计信息收集统计信息为CBO优化器提供成本的计算参考优化器基于统计信息尽可能选择最优执行计划ParserRelationT

报告速读

本文主要介绍了StarRocks与Iceberg联合打造的云原生湖仓分析技术，由镜舟科技研发工程师杨关锁主讲。文章首先概述了Lakehouse架构，即兼具数据湖和数据仓库优势的新型架构范式，强调了其开放统一的数据存储和多样化的Workload支持。接着，文章深入探讨了StarRocks Lakehouse架构的关键组成部分，包括存储、目录、计算引擎等，并特别强调了基于一份数据支持AI和BI的数据应用的重要性。然后，详细解析了StarRocks与Iceberg结合的极致性能揭秘和最佳实践，包括性能痛点、元数据缓存、分布式元数据计划、查询优化、物化视图、数据缓存等方面的内容。最后，文章提出了近期规划，包括性能优化、功能完善、易用性提升等方面的计划。

"StarRocks与Iceberg如何结合提升性能？" "如何利用StarRocks Lakehouse架构进行数据处理？" "StarRocks x Iceberg最佳实践有哪些亮点？"

杨关锁-StarRocks x Iceberg 云原生湖仓分析技术揭秘与最佳实.pdf

相关报告