《湖仓一体的基础:联机数据湖(29页).pdf》由会员分享,可在线阅读,更多相关《湖仓一体的基础:联机数据湖(29页).pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、湖仓一体的基础:联机数据湖湖仓一体的基础:联机数据湖萧少聪,巨杉数据库,资深总监负责巨杉公司产品及技术生态运营工作,连接上下游客户及合作伙伴生态,为巨杉公司建立万人技术社区。系中国电子商会数据资源服务创新专业委员会特聘行业专家,拥有近20年IT产品及社区建设经验,涵盖分布式数据库、操作系统、云计算等领域。参与著作:SequoiaDB分布式数据库权威指南深入理解大数据:大数据处理与编程实践Linux系统案例精解湖湖仓仓一一体体L La ak ke eh ho ou us se e1、业界对数据湖的定义2、为何需要 联机联机数据湖3、联机数据湖给湖仓一体带来的价值4、联机数据湖的典型案例及PG兼容
2、用法5、巨杉数据库,公司简介CONTEN TS业业界界如如何何定定义义数数据据湖湖湖湖仓仓一一体体L La ak ke eh ho ou us se e维维基基百百科科对对 D Da at ta a L La ak ke e 的的定定义义为为何何需需要要联联机机数数据据湖湖O Op pe er ra at ti io on na al l D Da at ta a L La ak ke e湖湖仓仓一一体体L La ak ke eh ho ou us se e经过范式清洗后的数据结构化数据仓库Data Warehouse报表展示BI分析 并并发发性性能能低低无法支持及对客业务 要要求求模模型型范
3、范式式数据开发周期长流程复杂依依赖赖专专家家经经验验成本高、门槛高、效率低面对业务频繁的迭代创新,传统数据库不能应对数据的增长及数据类型的变化;数据ETL、数据建模工作导致响应速度慢,数据时效慢。单单一一数数据据结结构构无法承载多样化数据类型湖湖仓仓一一体体L La ak ke eh ho ou us se e经过范式清洗后的数据结构化数据仓库Data Warehouse报表展示BI分析从从离离线线处处理理向向实实时时处处理理转转变变从从统统计计分分析析向向预预测测分分析析转转变变从从结结构构化化数数据据向向多多元元化化数数据据转转变变全全新新的的数数据据生生态态需需要要全量数据原始结构多模类
4、型联机数据湖Operational Data Lake半结构化结构化非结构化湖湖仓仓一一体体L La ak ke eh ho ou us se e经过范式清洗后的数据结构化数据仓库Data Warehouse报表展示BI分析 保真性 灵活性 可管理 可分析 可追溯 可存储报表展示BI分析在线分析数据仓库数据集市对客服务并发联机查询湖湖仓仓一一体体L La ak ke eh ho ou us se e传传统统数数仓仓联联机机数数据据湖湖(超超大大型型ODS)不易理解的数据模型加工后的、范式化的数据内容数据专家进行数据建模及应用,较高的技术及业务门槛,学习成本较高形态单一,仅结构化数据数据保持原有
5、形态入湖提供Multi-Model多模数据模型,实现结构化、非结构化、半结构化的全量数据统一管理支持事务一致性下的高并发联机查询业务人员及数据专家同时进行灵活的数据应用及探索联联机机数数据据湖湖带带给给湖湖仓仓一一体体的的价价值值(多多模模引引擎擎、事事务务一一致致性性)多多模模能能力力是是联联机机数数据据湖湖的的基基础础MySQL兼容实例 x NPostgreSQL兼容实例 x NSDB API原生实例 x NSpark兼容实例 x N结构化、半结构化、非结构化数据数据库资源节点数据库资源节点数据库资源节点数据库资源节点数据节点数据节点数据节点数据节点MariaDB兼容实例 x NS3 对象
6、存储兼容实例 x N结构化及半结构化数据存储格式非结构化数据存储格式统一的Catalog数据,统一的管控体系引擎多模数据类型多模湖湖仓仓一一体体L La ak ke eh ho ou us se e跨引擎ACID事务一致性Cloud Native 计算存储分离公有云、私有云平台传统多模数据库同一数据库支持两种以上数据模型云数据库多模能力的演变资源垂直划分的多类数据库引擎SequoiaDB原生分布式数据库统一数据源,跨引擎事务共享D Da at ta ab ba as se e本本地地存存储储或或S SA AN N关系型文档型JSON/XMLKV型图/GIS等如:Oracle、MySQL、PGS