当前位置:首页 > 报告详情

数据湖上的数据仓库性能.pdf

上传人: 张** 编号:167673 2024-06-15 20页 974.28KB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了数据湖屋(Data Lakehouse)与传统数据仓库在性能上的差异以及现有查询引擎在处理数据湖屋工作负载时的局限性。数据湖屋提供了一种开放和标准化的存储方案,能够统一批量和近实时工作负载,具有简单架构、灵活性和成本效益。然而,现有的查询引擎并不适合数据湖屋的工作负载,它们主要针对长时间运行的批量工作负载,而不是低延迟、高并发的查询。此外,fetching数据/元数据很容易成为瓶颈,查询引擎在处理外部存储系统如数据湖时的查询性能也不理想。为了解决这些问题,StarRocks应运而生,它是一个基于Linux Foundation开源的Lakehouse查询引擎,采用MPP架构和C++ SIMD优化,能够实现高并发下的亚秒级查询延迟,可运行对性能要求较高的数据仓库工作负载。与现有的Trino查询引擎相比,StarRocks在TPC-DS 1TB基准测试中显示出压倒性的优势,查询延迟仅为Trino的1/4.62。总的来说,StarRocks提供了一种适用于数据湖屋的高性能数据仓库解决方案。
"湖仓一体"性能如何? 现有查询引擎有哪些挑战? StarRocks与Trino性能对比如何?
客服
商务合作
小程序
服务号
折叠