《OpenLake:AI时代数据湖仓平台.pdf》由会员分享,可在线阅读,更多相关《OpenLake:AI时代数据湖仓平台.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、 OpenLake:AI时代数据湖仓平台演讲人:李钰阿里云资深技术专家,EMR团队负责人 数据湖、湖仓一体以及大数据搜索AI湖仓一体01010101010101010101OSSOSS文件读写外表读文件引擎解析表数据互通Parquet,Orc,Avro数据湖湖仓一体大数据搜索AI湖仓一体Data Lake01010101010101010101OSS湖表SDK读写湖元仓One Copy大数据Iceberg,Delta,Hudi,PaimonData Lakehouse引擎元仓01010101010101010101OSS湖表SDK读写结构化/非结构化开发平台引擎元仓引擎数仓计算引擎AI引擎开发
2、平台训练推理公共元仓统一湖元仓(管理表和文件)湖文件读写引擎元仓计算引擎计算引擎阿里云OpenLake解决方案OpenLake 大数据搜索AI一体化开发平台DataWorks IDE,NotebookMeta Service(DLF)IcebergDeltaHudiPaimonFile(图像、视频、文本等)ModelOSS(Managed/Incorporated)引擎对接权限管理元数据服务表管理文件管理PAIEMRSparkES/OS/MilvusMaxComputeEMRStarRocksMulti-Engine数据共享统一读写标准引擎平权联合计算HologresFlink 统一的多模态数
3、据管理底座Data Lake Formation 数据湖仓管理平台新版发布Serverless Engines(Flink Spark StarRocks Hologres MaxCompute)CatalogDatabaseTableViewVolumeFunctionPaimon Open Source Rest APIE-MapReduce&ECS(半托管&开源自建)AI Engines(Python PyArrow Ray DuckDB)Paimon Virtual File SystemData StorageMeta and Data managementLakehouse for
4、mat:Apache Paimon File format:Parquet/ORC/Avro/LanceStorage:Alibaba Cloud OSSCDC 入湖批量入湖迁移入湖Kafka 入湖Lakehouse ManagementLakehouse Ingestion元数据管理智能存储优化权限管理自适应分桶元仓服务自适应合并HiveIcebergPaimonAI时代湖格式的演进:Hive-Iceberg-Paimon针对多模态的离线、实时、OLAP、AI场景数据处理Shared File Storage ForBatch ProcessingShared Database Storag
5、e ForBatch ProcessingShared Database Storage ForBatch ProcessingStreaming ProcessingOLAP ProcessingAI ProcessingORC&Parquet FilesSimple architectureBasic functionalityACID TransactionDELETE&UPDATEData SkippingTime TravelPK Table based on LSMStreaming Write&ReadDeletion Vectors&IndexMultimodal Lance
6、FormatDLF AI Lake:Paimon Virtual File System 非结构化数据统一管理非结构化数据统一权限管理访问控制非结构化数据统一身份访问日志审计虚拟文件系统与对象表虚拟文件系统支持Python FS和POSIX大数据计算可以使用对象表视图访问DLF 服务:权限控制和日志审计IOTVolumeOSS bucket音视频文档Paimon Object TableAI 计算引擎Volume Location访问加速原始数据入湖对象元数据发现和同步Paimon Virtual File SystemPython FS&POSIXOSS SDKPaimon REST API