当前位置:首页 > 报告详情

开源 Delta Lake 3.0 优势和发展.pdf

上传人: s**** 编号:157198 2024-03-16 17页 1.29MB

1、DataFunSummit#2024Delta Lake 3.1 最新最新特征特征刘兆磊(Fred Liu)-Databricks-软件工程师目录目录 CONTENT 2023 回顾 Delta Lake 3.1 最新特性 Update and Merge with Deletion Vector 删除向量 Metadata only optimize on count/min/max 元数据查询优化 Universal Format 统一格式(iceberg,Hudi)Delta Lake 测评与比较Delta Lake 202331.6x 1.6x 下载增长下载增长!Delta Lake

2、3.1最新特性4 Update and Merge with Deletion Vector 删除向量 Metadata only optimize on count/min/max 元数据查询优化 Universal Format(iceberg)统一格式 Delta Sharing 支持直接查询被Delta Share的表 Delta Kernel dataskipping 内核支持基于count/min/max的数据跳过 Delta Flink启动延迟优化Source:https:/ Lake 3.0 Deletion Vector 删除向量ref:https:/delta.io/blo

3、g/2023-07-05-deletion-vectors/5file002.parquetfile002.parquetCol ACol B2baz7foo.28412bambamfile024.parquetfile024.parquetCol ACol B2baz7QUX.28412bambam在Deletion Vector之前,更新一行需要重写整个文件元数据文件数据文件Delta Lake 3.0 Deletion Vector 删除向量file002.parquetfile002.parquetCol ACol B2baz7foo.28412bambamfile024.parque

4、tfile024.parquetCol ACol B7QUXFilefile002.parquet00000.json00000.jsonFileDeletionsfile002.parquetdelete row 2file024.parquet00001.json00001.jsonDeletion Vector只需写入一行,并在元数据里标记删除Delta Lake 3.1 删除向量评测Merge Merge 快快 3.7x 3.7x,Update/DeleteUpdate/Delete至多快至多快10 x10 x;读取性能基本一致读取性能基本一致Delta Lake 3.1 删除向量与其

5、他格式 Iceberg 在 format version 2里支持merge on read,通过支持“delete file”实现 Hudi支持merge on read,通过row based change log 文件实现 以上格式在读取MOR表时均需读取额外的数据文件及计算,性能受到一定损失,Delta Lake可选在元数据里写入DeletionVector,不需读取额外数据Delta Lake 3.1 元数据查询优化读取表元数据读取表元数据得到数据文件列表得到数据文件列表引擎读取所有数据引擎读取所有数据文件文件,再聚合再聚合SELECT count(SELECT count(*),m

6、ax(c1),min(c1)FROM t1),max(c1),min(c1)FROM t1Delta Lake 3.1 元数据查询优化FileStatsf1.parquetc1 max:1;c1 min:0,rowCnt:10f2.parquetc1 max:10;c1 min:5,rowCnt:1000001.json/00001.json/00000.checkpoint.parquet00000.checkpoint.parquetSELECT count(SELECT count(*),max(c1),min(c1)FROM t1),max(c1

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了Databricks公司的Delta Lake 3.1最新特性。其中包括:1)更新和合并删除向量,提高了3.7倍的合并速度,最多可提高10倍的更新/删除速度,同时读取性能基本一致;2)元数据查询优化,通过文件统计信息进行查询,无需读取额外数据,提高了查询效率;3)统一格式,支持 iceberg 和 Hudi,使得Delta Lake能更好地与其他数据湖格式生态系统集成。此外,文章还对比了Delta Lake与其他格式在读取MOR表时的性能差异,并展望了Delta Lake在未来数据湖格式生态系统中的发展。
"Delta Lake 3.1如何优化删除向量?" "Delta Lake的元数据查询优化有哪些特点?" "Delta Lake的统一格式如何统一不同数据格式?"
客服
商务合作
小程序
服务号
折叠