数据湖超车道:StarRocks 如何借助物化视图加速数据分析.pdf

编号:135132 PDF 27页 9.46MB 下载积分:VIP专享
下载报告请您先登录!

数据湖超车道:StarRocks 如何借助物化视图加速数据分析.pdf

1、DataFunSummit#2023StarRocks 物化视图:助数据湖分析王欢明-StarRocks-程师01StarRocks 数据湖分析02StarRocks 物化视图03MV for LakeHouse04总结展望录 CONTENTDataFunSummit#202301StarRocks 数据湖分析StarRocks 3.0 OverviewRealtime IngestionBatch Ingestion Dashboards BI Reports Ad-hoc Queries Data Apps Realtime LakehouseDataLake AnalyticsStarR

2、ocks+Data warehouseData lake=数据质量(Data quality)查询性能(Performance)实时分析(Realtime)数据治理(Governance)开放态(Open)灵活统(Single source of truth)可扩展性(Scalability)性价(Cost efficiency)云原弹性扩展湖仓融合体化LakeHouseStarRocks LakeHouseCREATE EXTERNAL CATALOG PROPERTIES(type=“iceberg”,MetastoreParams,StorageCredentialParams,Meta

3、dataUpdateParams)持 Hive/Iceberg/Hudi/DeltaLake,直接分析湖上数据跨数据源(Catalog)联邦分析内外表数据访问统管理StarRocks LakeHouse-CatalogStarRocks ASTStarRocks Logic PlanParsePlanSQL Dialect持 Trino SQL 的关键字、语法、函数转义等Trino SQL 转换为 StarRocks AST,并成执计划set sql_dialect=“trino”启StarRocks LakeHouse-Trino 兼容极速数据湖分析挑战 不同件格式、不同存储系统 IO 特征

4、不同 数据组织,件、Row group 设置不合理 IO 延迟,法利 Page cache 加速StarRocks LakeHouse-极速查询性能极速数据湖分析挑战 不同件格式、不同存储系统 IO 特征不同 数据组织,件、Row group 设置不合理 IO 延迟,法利 Page cache 加速 关键技术 Local Block Cache:Disk+Memory IO 合并,减少 IO 次数;Column 读取合并-Row group 合并-整个件合并读取 延迟物化,根据带查询条件的部分列过滤结果,读取其他需要访问的列,减少 IO 总量Iceberg、TPC-H 测试集、4x16c128

5、g 计算节点StarRocks 直接查询数据湖 Trino 快35倍StarRocks LakeHouse-极速查询性能StarRocks FESpark/Flink Compute engineCatalogTable formatFile formatStorageHMSIcebergParquetHDFSS3ORCHudiStarRocks FileGlue/DLFStarRocks TableStarRocks CN统开放的 Lakehouse 架构,分层解耦设计StarRocks 内表相数据湖提供更好的数据访问优化、提供实时数据更新的能IndexBitmap/HLL TypeReal

6、time updatePartition/Bucketing/SortColocate StatisticsUnified catalogCBO Vector engineQuery cacheStarRocks LakeHouse-统开放DataFunSummit#202302StarRocks 物化视图StarRocks Materialized View功能特性 Materialized:预计算 Partition:按时间分区,缩刷新粒度 Refresh:定时刷新/动刷新/动刷新 Resource Group:弹性调度,隔离作负载 Query:Aggregation/Join/Union

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(数据湖超车道:StarRocks 如何借助物化视图加速数据分析.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠