1、2025 数据湖峰会Apache Gravitino(incubating):数据湖治理新范式史少锋/Datastrato2025 数据湖峰会新时代下数据湖管理的新挑战Apache Gravitino 整体架构设计为什么需要 Rest Catalog(以Iceberg 为例)使用Gravitino实现对多种数据湖的统一管理2025 数据湖峰会01新时代下数据湖管理的挑战2025 数据湖峰会多云导致数据孤岛问题凸显,数据地域保护越发加剧此问题S3S3RedShiftRedShiftData LakeData LakeSQLSQLGCSGCSBigQueryBigQueryIcebergIcebe
2、rgHudiHudiHadoopHadoopGlueGlueADADCatalogCatalogRDSRDSKinesisKinesisESESCosmos Cosmos DBDBBlob StorageBlob StorageAnalysis Analysis ServicesServicesSpannerSpannerBigtableBigtableFileStoreFileStoreKafkaKafkaHBaseHBaseRedisRedisSparkSparkImpalaImpalaClickHouseClickHouseHiveHiveKuduKudu公有云公有云私有云私有云/数据中
3、心数据中心OzoneOzoneAthenaAthenaData Data PipelinePipelineMachineMachineLearningLearningData Data ShareShareDataDataFactoryFactoryMachineMachineLearningLearningCloud MLCloud MLPub/SubPub/SubDataStoreDataStore澳大利亚澳大利亚北美北美中国中国多云平台的选择造成数据孤岛多种数据形态带来的多数据存储方案、数据治理工具、计算架构的并存同一产品在多种业务平台上数据不连通造成数据孤岛数据地域保护造成数据孤岛多地
4、域的数据集中带来数据成本、安全以及隐私保护问题2025 数据湖峰会企业数据湖类型众多,如何统一发现、管理和治理?2025 数据湖峰会数据发现数据发现Automatically find,classify,and map all of your data-everywhere.数据连接数据连接Connect to the Data That Matters Most.数据分类数据分类Automatically classify more types of data in more places.数据生命周期管理数据生命周期管理Simplify and automate data lifecycl
5、e management from collection to destruction.PII&PI DataLegal Hold DataCredentialsIP DataTechnical&Business Data3rd Party Data元数据增强元数据增强Enrich technical metadata with business and operational metadata for full visibility.数据主权数据主权Automate end-to-end data rights requests and reporting.水面以下潜藏的问题尤为重要2025
6、 数据湖峰会02Apache Gravitino 整体架构设计2025 数据湖峰会Data Lake(Hive,Iceberg,Hudi,Paimon)Data Warehouse(Doris,Starrocks,OceanBase)Messaging System(Kafka,Pulsar)Unstructured Data(HDFS,S3,OSS,OBS,etc)解决问题:解决问题:掌握整个数据和 AI 的 全貌支持多种数据和AI引擎进行数据交互在一个地方进行数据和AI资产的管理:统一数据访问、统一权限管理,确保各地数据的安全和审计Hive MetastoreBuilt-in Catalo