《云原生数据湖存储的架构发展和数据治理-程力.pdf》由会员分享,可在线阅读,更多相关《云原生数据湖存储的架构发展和数据治理-程力.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、云原生数据湖存储架构发展和数据治理数据湖存储负责人/程力腾讯云数据湖存储GooseFS介绍腾讯云原生数据湖存储的架构数据湖存储GooseFS大数据业务实践数据湖存储GooseFS模型训练业务实践数据湖存储架构演进对象存储 COS大数据AIHPC基因HadoopCompatible可架构智能缓存集群化部署FUSECompatibleNativeFS InterfaceS3Compatible渲染鉴权认证监控告警志管理COS 加速器元数据加速Data LakeGooseFSGooseFS数据湖三层加速架构数据湖三层加速架构:近计算端缓存:计算端 -缓存加速 元数据加速:数据端 -元数据加速 COS
2、加速器:存储端 -数据加速AZ 1EMR AI ML K8SCOS 对象存储GooseFS(Cache Accelerator)元数据加速器(Metadata Accelerator)数据加速器(Data Accelerator)AZ 2EMR AI ML K8SGooseFS(Cache Accelerator)数据加速器(Data Accelerator)IcebergIceberg计 计 算 算 端 端 加 加 速 速A AZ Z端 端 加 加 速 速存 存 储 储 端 端 加 加 速 速GooseFSGooseFS:CacheCache Accelerator:Accelerator:
3、运行在EMR/AI/ML/K8S集群内,基于集群MEM/SSD资源,提供Data Cache能力;热数据缓存在Cache中,对象存储保存全量数据;针对各种计算引擎,提供Data Locality能力;提供磁盘模式和内存模式,支持淘汰COSCOS加速加速器器:DataData AcceleratorAccelerator:AZ级部署,全SSD存储介质,热数据读加速;提供Tbps带宽,满足高吞吐需求;提供ms级别时延;元数据加速元数据加速器器:MetadataMetadata AcceleratorAccelerator:提供文件系统级别元数据操作能力;Rename操作,无需Copy/Delete
4、数据;List操作,无频控;每个Bucket,提供10万 QPS;数据湖存储数据湖存储GooseFSGooseFS拓扑拓扑COS 对象存储TablesHive MetaStore/DLF MetaStoresub-prefix(Partitions)FilesprefixMetadata Cache(RAM/SSD/HDD)H Hi iv ve e/I Ic ce eb be er rg g T Ta ab bl le e 预 预 热 热:Table相关的数据从COS对象存储中,被加载到计算节点DataCache中。Data Cache(RAM/SSD/HDD)P Pr re ef fi ix
5、 x预 预 热 热:COS对象存储中对应Prefix的Objects,被加载到计算节点DataCache中。MMe et ta ad da at ta aC C a ac ch he e:元数据被缓存到计算节点MetadataCache中,并通过RocksDB进行持久化。DataData CacheCache:支持Hive Table Level预热,面向业务加速;支持Iceberg Table Leve预热;支持Prefix Level预热,按目录加速;支持多种数据缓存淘汰策略,LRU/LRFU/TTL;支持缓存数据同步/异步写入COS;MetadataMetadata CacheCache
6、:避免了大量的list operations;提高了Metadata 访问性能;GooseFS 大数据业务加速EMR C oreNodeExecutorGooseFSWorkerExecutorSpark DriverSpark ExecutorGooseFSClientCOS 对象存储C lient NodeSpark ContextEMRMaster nodeGooseFS MasterYarn Resource ManagerYarn Node ManagerEMR C oreNodeExecutorGooseFSWorkerSpark ExecutorGooseFSClientYarn