《OpenLake:面向AI时代的数据基础设施演进.pdf》由会员分享,可在线阅读,更多相关《OpenLake:面向AI时代的数据基础设施演进.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、 OpenLake:面向AI时代的数据基础设施演进演讲人:李劲松PMC Chair of Apache Paimon 阿里云智能集团计算平台事业部数据湖平台负责人数据湖、湖仓一体以及大数据搜索AI湖仓一体01010101010101010101OSSOSS文件读写外表读文件引擎解析表数据互通Parquet,Orc,Avro数据湖湖仓一体大数据搜索AI湖仓一体Data Lake01010101010101010101OSS湖表SDK读写湖元仓One Copy大数据Iceberg,Delta,Hudi,PaimonData Lakehouse引擎元仓01010101010101010101OSS湖
2、表SDK读写结构化/非结构化开发平台引擎元仓引擎数仓计算引擎AI引擎开发平台训练推理公共元仓统一湖元仓(管理表和文件)湖文件读写引擎元仓计算引擎计算引擎阿里云OpenLake解决方案OpenLake 大数据搜索AI一体化开发平台DataWorks IDE,NotebookMeta Service(DLF)IcebergPaimonFile(图像、视频、文本等)ModelOSS(Managed/Incorporated)引擎对接权限管理元数据服务表管理文件管理PAIEMRSparkES/OS/MilvusMaxComputeEMRStarRocksMulti-Engine数据共享统一读写标准引擎
3、平权联合计算HologresFlink数据湖基础设施的演进HiveIcebergPaimonData+AI 时代湖格式的演进Shared File Storage ForBatch ProcessingShared Database Storage ForBatch ProcessingShared Database Storage ForBatch ProcessingStreaming ProcessingOLAP ProcessingAI ProcessingORC&Parquet FilesSimple architectureBasic functionalityACID Trans
4、actionDELETE&UPDATEData SkippingTime TravelPK Table based on LSMStreaming Write&ReadDeletion Vectors&IndexMultimodal Lance FormatHive 到湖格式的演化:批更新Staging TableTarget TableTarget TableMERGE INTO vs.INSERT OVERWRITE优势 合并效率更高,避免重写所有文件 存储效率更高,时间旅行查询历史负担 管理小文件合并,管理湖格式版本Iceberg 到 Paimon 的演化:流更新优势 数据实时更新,实时
5、可见 同步自动进行,自动维护负担 桶数如何定义,如何合适 自动合并影响写入耗资源Schema EvolutionFlink CDC整库同步Changelog DataPaimonPaimonKafka 同步Flink CDC 同步阿里云上的湖格式性能测试020040060080010001200PaimonHudiIcebergFlink Stream Test:TPC-H Benchmark1.0 X2.5 X3.75 X05001000150020002500300035004000PaimonIcebergHudiSpark Batch Test:TPC-DS Benchmark1.0
6、X1.45 X1.87 X数据湖时代元数据管理的演进新版发布Hive Metastore 的问题:针对 Hive 设计,与当前的湖表理念有较大差别权衡模型绑定了 Ranger,较难统一 RBAC 和审计元数据无法理解湖表:Snapshot、Branch 等概念较难扩展,比如湖与 AI 的结合需要扩展元数据Unity Rest APIIcebergIceberg Rest APIPaimonPaimon Rest API元数据系统专门给 Paimon 打造DLF 数据湖平台:OpenLake 的存储底座Data Lake Formation 数据湖仓管理平台新版发布Serverless Engi