OpenLake：面向AI时代的数据基础设施演进.pdf

上传人：芦苇

编号：651586

2025-05-01

PDF 24页 6.73MB

《OpenLake：面向AI时代的数据基础设施演进.pdf》由会员分享，可在线阅读，更多相关《OpenLake：面向AI时代的数据基础设施演进.pdf（24页珍藏版）》请在三个皮匠报告上搜索。

1、 OpenLake：面向AI时代的数据基础设施演进演讲人：李劲松PMC Chair of Apache Paimon 阿里云智能集团计算平台事业部数据湖平台负责人数据湖、湖仓一体以及大数据搜索AI湖仓一体01010101010101010101OSSOSS文件读写外表读文件引擎解析表数据互通Parquet，Orc，Avro数据湖湖仓一体大数据搜索AI湖仓一体Data Lake01010101010101010101OSS湖表SDK读写湖元仓One Copy大数据Iceberg，Delta，Hudi，PaimonData Lakehouse引擎元仓01010101010101010101OSS湖

2、表SDK读写结构化/非结构化开发平台引擎元仓引擎数仓计算引擎AI引擎开发平台训练推理公共元仓统一湖元仓（管理表和文件）湖文件读写引擎元仓计算引擎计算引擎阿里云OpenLake解决方案OpenLake 大数据搜索AI一体化开发平台DataWorks IDE，NotebookMeta Service（DLF）IcebergPaimonFile（图像、视频、文本等）ModelOSS（Managed/Incorporated）引擎对接权限管理元数据服务表管理文件管理PAIEMRSparkES/OS/MilvusMaxComputeEMRStarRocksMulti-Engine数据共享统一读写标准引擎

3、平权联合计算HologresFlink数据湖基础设施的演进HiveIcebergPaimonData+AI 时代湖格式的演进Shared File Storage ForBatch ProcessingShared Database Storage ForBatch ProcessingShared Database Storage ForBatch ProcessingStreaming ProcessingOLAP ProcessingAI ProcessingORC&Parquet FilesSimple architectureBasic functionalityACID Trans

4、actionDELETE&UPDATEData SkippingTime TravelPK Table based on LSMStreaming Write&ReadDeletion Vectors&IndexMultimodal Lance FormatHive 到湖格式的演化：批更新Staging TableTarget TableTarget TableMERGE INTO vs.INSERT OVERWRITE优势合并效率更高，避免重写所有文件存储效率更高，时间旅行查询历史负担管理小文件合并，管理湖格式版本Iceberg 到 Paimon 的演化：流更新优势数据实时更新，实时

5、可见同步自动进行，自动维护负担桶数如何定义，如何合适自动合并影响写入耗资源Schema EvolutionFlink CDC整库同步Changelog DataPaimonPaimonKafka 同步Flink CDC 同步阿里云上的湖格式性能测试020040060080010001200PaimonHudiIcebergFlink Stream Test：TPC-H Benchmark1.0 X2.5 X3.75 X05001000150020002500300035004000PaimonIcebergHudiSpark Batch Test：TPC-DS Benchmark1.0

6、X1.45 X1.87 X数据湖时代元数据管理的演进新版发布Hive Metastore 的问题：针对 Hive 设计，与当前的湖表理念有较大差别权衡模型绑定了 Ranger，较难统一 RBAC 和审计元数据无法理解湖表：Snapshot、Branch 等概念较难扩展，比如湖与 AI 的结合需要扩展元数据Unity Rest APIIcebergIceberg Rest APIPaimonPaimon Rest API元数据系统专门给 Paimon 打造DLF 数据湖平台：OpenLake 的存储底座Data Lake Formation 数据湖仓管理平台新版发布Serverless Engi

OpenLake：面向AI时代的数据基础设施演进.pdf

相关报告