OpenLake:面向AI时代的数据基础设施演进.pdf

编号:651586 PDF 24页 6.73MB 下载积分:VIP专享
下载报告请您先登录!

OpenLake:面向AI时代的数据基础设施演进.pdf

1、 OpenLake:面向AI时代的数据基础设施演进演讲人:李劲松PMC Chair of Apache Paimon 阿里云智能集团计算平台事业部数据湖平台负责人数据湖、湖仓一体以及大数据搜索AI湖仓一体01010101010101010101OSSOSS文件读写外表读文件引擎解析表数据互通Parquet,Orc,Avro数据湖湖仓一体大数据搜索AI湖仓一体Data Lake01010101010101010101OSS湖表SDK读写湖元仓One Copy大数据Iceberg,Delta,Hudi,PaimonData Lakehouse引擎元仓01010101010101010101OSS湖

2、表SDK读写结构化/非结构化开发平台引擎元仓引擎数仓计算引擎AI引擎开发平台训练推理公共元仓统一湖元仓(管理表和文件)湖文件读写引擎元仓计算引擎计算引擎阿里云OpenLake解决方案OpenLake 大数据搜索AI一体化开发平台DataWorks IDE,NotebookMeta Service(DLF)IcebergPaimonFile(图像、视频、文本等)ModelOSS(Managed/Incorporated)引擎对接权限管理元数据服务表管理文件管理PAIEMRSparkES/OS/MilvusMaxComputeEMRStarRocksMulti-Engine数据共享统一读写标准引擎

3、平权联合计算HologresFlink数据湖基础设施的演进HiveIcebergPaimonData+AI 时代湖格式的演进Shared File Storage ForBatch ProcessingShared Database Storage ForBatch ProcessingShared Database Storage ForBatch ProcessingStreaming ProcessingOLAP ProcessingAI ProcessingORC&Parquet FilesSimple architectureBasic functionalityACID Trans

4、actionDELETE&UPDATEData SkippingTime TravelPK Table based on LSMStreaming Write&ReadDeletion Vectors&IndexMultimodal Lance FormatHive 到湖格式的演化:批更新Staging TableTarget TableTarget TableMERGE INTO vs.INSERT OVERWRITE优势 合并效率更高,避免重写所有文件 存储效率更高,时间旅行查询历史负担 管理小文件合并,管理湖格式版本Iceberg 到 Paimon 的演化:流更新优势 数据实时更新,实时

5、可见 同步自动进行,自动维护负担 桶数如何定义,如何合适 自动合并影响写入耗资源Schema EvolutionFlink CDC整库同步Changelog DataPaimonPaimonKafka 同步Flink CDC 同步阿里云上的湖格式性能测试020040060080010001200PaimonHudiIcebergFlink Stream Test:TPC-H Benchmark1.0 X2.5 X3.75 X05001000150020002500300035004000PaimonIcebergHudiSpark Batch Test:TPC-DS Benchmark1.0

6、X1.45 X1.87 X数据湖时代元数据管理的演进新版发布Hive Metastore 的问题:针对 Hive 设计,与当前的湖表理念有较大差别权衡模型绑定了 Ranger,较难统一 RBAC 和审计元数据无法理解湖表:Snapshot、Branch 等概念较难扩展,比如湖与 AI 的结合需要扩展元数据Unity Rest APIIcebergIceberg Rest APIPaimonPaimon Rest API元数据系统专门给 Paimon 打造DLF 数据湖平台:OpenLake 的存储底座Data Lake Formation 数据湖仓管理平台新版发布Serverless Engi

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(OpenLake:面向AI时代的数据基础设施演进.pdf)为本站 (芦苇) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠