1、打造数据增量计算新架构打造数据增量计算新架构 - 网易数据湖调研网易数据湖调研 I(1,2) INSERT (1,2) data file I(1,2) UPDATE (1,2) - (1,3) data file I(1,3) D(1,2) del file I(1,2) data file I(1,3) D(1,2) del file INSERT (3,5) I(3,5) I(1,2) data file I(1,3) D(1,2) del file DELETE (1,3) I(3,5) D(1,3) SELECT * FROM SAMPLE I(3,5) INSERT/UPDATE/
2、DELETE实现 数据湖Iceberg核心原理 CREATE TABLE sample id INT NOT NULL, data INT NOT NULL ; I(1,2) INSERT (1,2) data file I(1,2) DELETE (1,2) data file D(1,2) del file I(1,2) data file I(1,2) D(1,2) del file INSERT (1,2) 同一次事务内同一行数据多次更新 数据湖Iceberg核心原理 CREATE TABLE sample id INT NOT NULL, data INT NOT NULL ; I(
3、1,2) INSERT (1,2) data file I(1,2) DELETE (1,2) data file D(1,2) equality-del SOLUTION : Mixed Equality-Delete and Positional-Delete I(1,3) I(1,3) (df1,1) pos-del 网易网易IcebergIceberg实践实践 0303 章节章节 PARTPART 网易Iceberg实践 ODS层改造:提升ETL稳定性&性能 网易Iceberg实践 基于Iceberg实现统一存储的准实时数仓 网易Iceberg实践 Iceberg基建:完善Iceberg对接OLAP查询引擎生态 Impala支持建内(外)表/ 基于Impala查询 Spark 2.4.5支持SQL方式 读写 HiveSQL建内(外)表/基于 HiveSQL查询 网易Iceberg实