《混合存储架构中的数据编排.pdf》由会员分享,可在线阅读,更多相关《混合存储架构中的数据编排.pdf(9页珍藏版)》请在三个皮匠报告上搜索。
1、混合存储架构中的数据编排Saiguang|Alluxio内容列表数据访问的主要命题1243Alluxio最佳适用场景Alluxio的缓存加速、命名空间、接口转换基于Alluxio的数据管理5基于Alluxio的数据联邦数据访问的主要命题data localityHDFS RBFhdfs-fusedistcp单一分布式系统多系统,多中心内存,L1/L2缓存文件系统命名空间Virtual FileSystem数据备份,FS日志单台服务器读写性能命名空间接口转换数据管理其他功能(安全,审计,监控.)linux,mysqlhadoophdfs,obj store,presto,ml跨网络传输对象存储不
2、能挂载HDFS异构存储系统接口不同异构存储同步/备份/分层不同数据中心之间、数据中心和云之间、不同云服务区之间,网络为珍稀资源;对象存储对高并发读写限流;对象存储egress高成本存算分离的网络瓶颈Presto对接不同的数据源,架构设计限制了计算和数据的本地性;依赖GPU资源的PyTorch,TensorFlow等任务不能在其他节点执行;对象存储系统有成本、运维的优势,但是与HDFS不同,不支持在数据服务器上运行计算程序缺乏数据本地性单一数据中心不能满足扩容需求;数据异地灾备;在采集端进行数据预加工后再汇总多个自建数据中心云上资源的可伸缩性;使用云上最新的服务和技术;公有云对象存储极低的边际成
3、本;按用量付费自建数据中心+云服务提供商单一服务不能正常提供服务导致业务被“一锅端”;厂商锁死;不同云厂商对同一服务的定价和运维的能力不同;竞价优势多云服务提供商多系统,多中心架构的优势-大势所趋多系统,多中心架构的挑战-机遇伴随挑战当前时代,上述命题不能依靠特定的存储或者计算厂商去解决,Alluxio应运而生!Alluxio的最佳适用场景编排数据贴近计算,在存算分离场景下保证数据读写性能联邦异构存储系统,让用户通过统一命名空间访问数据降低接口适配成本,为复杂系统提供通用协议转换方案屏蔽数据物理位移,为运维人员提供自动化数据管理方案Alluxio解决特定场景中的数据访问命题Alluxio的数据
4、缓存,命名空间,接口转换数据缓存&元数据缓存RAM、SSD、HDD资源自控,无限流集群缓存&客户端缓存TTL,pin/unpin,缓存类型无需管理持久化数据数据缓存命名空间接口转换统一混合存储命名空间(Unified Namespace)同一个挂载点挂载异构存储(Union Mount)引入新类型的存储系统(HDFS+S3)统一ML和Big Data的存储系统(HDFS+Fuse)配合统一命名空间实现文件目录(HDFS/NAS+REST)应用场景:热数据放在HDFS中,冷数据放在对象存储中分层策略:超过6个月的文件由HDFS迁移至对象存储执行引擎:根据分层策略扫描目录树、迁移文件、错误重试等数
5、据转移:数据的物理路径被Union Mount屏蔽,物理位置的改变对应用层无影响基于Alluxio的数据管理AlluxioPDDM执行引擎AlluxioMaster 应用程序Union Mount数据迁移基于Alluxio的数据联邦v云-AMetaStorev云-BMetaStorevIDCMetaStore数据流控制流注册信息混合云中的数据自治和数据共享 通过使用多云、多数据中心,企业的各个执行单位在数据化的进程中表现得更加敏捷 数据系统围绕部门、子公司、区域公司等组织结构形成数据孤岛,妨碍数据资产的价值提升 传统方法通过数据同步实现数据孤岛之间的数据共享,但是面临诸多挑战 数据一致性(数据同步是否结束?)数据高冗余(数据生命周期如何管理?)运维复杂度(哪些数据需要同步?)管理复杂度(如何找到共享数据?)基于Alluxio的数据联邦 为共享数据的注册、发现提供中心化管理平台 在库、表、文件3个层级提供联邦访问 允许用户同时访问自治数据和共享数据 用户访问远程数据时,按需缓存数据,避免数据同步 系统的改造为增量改造,业务部门仍然使用原有的工作模式来访问自治数据加入社区,关注动态访问项目G