1、数据虚拟化架构比较白皮书数据编织的性能 2024 Denodo Technologies作者:Pablo lvarez Yez目录I3I444I5579101010I1112131314151617I18概述专用数据虚拟化层具有数据虚拟化扩展的数据引擎场景 1:访问外部源场景 2:联合两个外部源场景 3:联合数据湖和小型外部源场景 4:联合数据湖和大型外部源引言:数据虚拟化架构数据虚拟化架构中的查询执行比较总结专用数据虚拟化层具有数据虚拟化扩展的数据湖引擎混合方法其他加速技术缓存聚合感知加速基准测试查询环境规格基准测试场景基准测试3 2024 Denodo Technologies概述场景专用
2、数据虚拟化层:Denodo 平台具有数据虚拟化扩展的数据引擎:领先的数据湖供应商访问外部源26.52 秒3 分 19 秒5 小时 8 分 28 秒联合两个外部源2 小时 27 分 15 秒联合数据湖和小型外部源2 分 29 秒2 分 13 秒联合数据湖和大型外部源6 分 16 秒4 小时 10 分 32 秒这些结果展示了分布式环境中专用数据虚拟化层的强大能力。在这种环境下,其引擎的复杂程度和专业化程度超越了数据湖并行引擎在访问外部数据集和多源数据联合的潜在优势。数据编织背后的一个关键思想是,能够通过一个易于使用的中心化接入点访问组织中的任何数据资产。最终用户不必应对幕后的复杂数据生态系统,也不
3、需要了解组织中每个数据库和应用程序的实质细节。数据虚拟化层可以实现这一点,它可以抽象出复杂性,并提供中心化的接入点。除了集中访问之外,该层通常还提供其他功能,如缓存、安全、建模和跨源联合等,能够在整个组织中统一实施。即使公司数据分散在数十个异构系统中,这些功能仍将让最终用户感觉,所有数据都整合并存储在单一系统中。专用数据虚拟化层数据编织供应商采用两种主要架构提供这种功能:具有数据虚拟化扩展的数据引擎从业务角度来看,数据编织的主要目标是创建一个敏捷平台,通过自助服务数据层,以业务部门可以理解和使用的方式公开数据,从而缩短获取数据的时间。在这份白皮书中,我们将详细探讨这两种架构,并重点关注这些实现
4、决策对查询执行性能的影响。为进一步说明这两种架构之间的差异,我们使用 TPC-H 展开广泛的基准测试,展示这两种架构在不同场景下的表现。您可以在下面的“基准测试”小节中找到测试方法和环境规格的详细说明。在这里,我们先简要总结测试结果。4 2024 Denodo Technologies引言:数据虚拟化架构数据管理供应商采用两种主要的数据虚拟化技术来提供跨多个数据源的通用访问层。在本节中,我们将比较它们的共通点和差异。专用数据虚拟化层在这类架构中,虚拟化层位于所有数据源之上,提供一个中心化接入点。它分析传入的查询并将每个请求转发到包含相应数据的数据源。这个过程被称为“查询下推”或“查询委托”。由
5、于查询可能涉及来自多个数据源的表,因此这类软件需要包含具有跨数据源联合功能的引擎和目的驱动型优化器。缓存、聚合感知加速等技术被频繁使用。Denodo 就是这类技术提供商。具有数据虚拟化扩展的数据引擎在这类架构中,数据系统包含一个扩展,不仅能够链接自有数据,也能链接外部数据源。这种架构例子早期包括Oracle DB 链接或 Microsoft SQL Server 链接服务器等工具。目前,许多具备并行处理MPP功能的数据湖引擎都实现了此类架构,如 Spark、Dremio 或 Starburst(Trino)。因此,对于这一类别,本白皮书的重点将放在数据湖引擎上。在这些系统中,当请求外部数据时,
6、工作器节点会查询外部表,并将其输入并行引擎处理管道。此类供应商也提供缓存之类技术。专用数据虚拟化对比数据湖扩展两种架构都允许最终用户在分布式数据环境中运行查询,但处理方式显著不同。下一节我们将深入探讨这些设计差异对查询执行性能的影响。数据湖/值得注意的是,专用数据虚拟化解决方案通常包含额外功能(例如高级建模、数据沿袭和治理),用于创建和管理跨多个数据源的语义层。数据湖供应商往往更关注针对对象存储中的数据执行查询,这些功能的分析不在本白皮书讨论范围之中,您可以在白皮书释放数据生态系统的全部潜力中找到更深入的讨论。湖仓一体分布式文件系统(S3、ADLS、HDFS)云传统DB 和 DW专用数据虚拟化