《史少锋-如何用元数据湖解决多 Lakehouse 治理难题.pdf》由会员分享,可在线阅读,更多相关《史少锋-如何用元数据湖解决多 Lakehouse 治理难题.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、史少锋目录图片来自:https:/ MVCC,实现快照、时间旅行、回滚等操作;支持 schema evolution 和 partition evolution。支持对象存储,为云上使用而优化元数据与数据一起保存在云存储上,确保可靠和持久使用开放数据格式(parquet、avro、orc等)提供开放 API,从各种引擎平台接入支持主流 SQL 引擎支持结构化、半结构化和非结构化数据的存储和管理既支持传统大数据workload,也支持 AI/ML 流式数据湖(LSM树+列存),深度使用 Flink 构建实时数仓,支持高吞吐写入和实时点查开放表格式标准,支持隐藏分区和高效元数据过滤,多引擎兼容,适
2、合历史数据分析事务型数据湖平台,支持COW和MOR两种存储模式;行级ACID,支持流式CDC更新深度集成 Spark 生态,提供 ACID 事务和批流一体能力可见,各有侧重,企业面临多种 Lakehouse 同时存在、同时管理、同时治理的问题S3RedShiftData LakeSQLGCSBigQueryIcebergHudiHadoopGlueADCatalogRDSKinesisESCosmos DBBlob StorageAnalysis ServicesSpannerBigtableFileStoreKafkaHBaseRedisSparkImpalaClickHouseHiveKu
3、du公有云私有云/数据中心OzoneAthenaData PipelineMachineLearningData ShareDataFactoryMachineLearningCloud MLPub/SubDataStore澳大利亚北美中国多平台的选择造成数据孤岛多种数据形态带来的多数据存储方案、数据治理工具、计算架构的并存同一产品在多种业务平台上数据不连通造成数据孤岛数据地域保护造成数据孤岛多地域的数据集中带来数据成本、安全以及隐私保护问题数据发现Automatically find,classify,and map all of your data-everywhere.数据连接Conne
4、ct to the Data That Matters Most.数据分类Automatically classify more types of data in more places.数据生命周期管理Simplify and automate data lifecycle management from collection to destruction.PII&PI DataCredentialsIP DataTechnical&Business Data3rd Party Data元数据增强Enrich technical metadata with business and oper
5、ational metadata for full visibility.数据主权Automate end-to-end data rights requests and reporting.统一发现,权限管控,数据接入,访问审计,数据血缘,生命周期管理。Data lake/Lakehouse数据仓库实时消息流AI 模型Hive MetastoreDW CatalogSchema RegistryModel Registry目标:数据统一视图从元数据层面上达到 SSOT统一访问和治理Next-Gen Data Catalog is the Core in New Open Data Archi
6、tecture 文本、图片、视频等Filesethttps:/gravitino.apache.org/MetadataStorageFunctionality layerInterface layerCore with object modelConnection LayerUnified REST APIsIceberg REST APIsUnified ProcessingUnified GoverningMetalakeCatalogSchemaTableConnectionCatalogSchemaFilesetConnectionCatalogSchemaModelConnecti