1、DataFunSummitDataFunSummit#20232023金融信创湖仓一体数据平台架构实践原攀峰-数新网络-CTO云数据智能平台DataCyber数据平台架构演进1金融信创对数据平台的挑战23金融信创数据平台落地路径4金融信创数据平台实践案例52.2.数据平台阶段数据平台阶段大规模数据存储计算能力没有明显离线在线的区分大量在线数据服务3.3.数据中台阶段数据中台阶段数据平台+数据体系+组织变革4.4.云数据平台阶段云数据平台阶段云原生架构,云数仓:多租户,资源按需弹性使用和计量计费1.1.数据仓库阶段数据仓库阶段OLAP,BI报表,数据分析,数据集市大数据基础设施发展阶段Data
2、WarehouseData Warehouse架构架构共享存储:共享存储:Oracle大规模并行处理:大规模并行处理:Teradata、GreenplumData LakeData Lake架构架构大数据基础框架(大数据基础框架(Hadoop 1.xHadoop 1.x):):单一MapReduce分析计算多元化(计算多元化(Hadoop 2.xHadoop 2.x):):Hive、Spark、Flink、Impala、Presto等,复合分析Data LakehouseData Lakehouse架构架构存储多元化:存储多元化:Hadoop 3.x、对象存储,MPP数据库云数据仓库:云数据仓
3、库:Snowflake、Databricks,大数据+AI分析Kubernetes集群物理机/虚拟机HiveSparkFlinkPrestoDorisJupyterLabHadoopKafkaMinIO业务方1业务方2业务方3云原生大数据是一种以云原生化技术为基础,实现计算云原生调度、存储统一负载的新型数据平台架构,从而支持多种计算负载,计算调度更弹性,存储效能更高多种计算负载,计算调度更弹性,存储效能更高的大数据处理和分析平台。云原生带来的优势:云原生带来的优势:扩展性大幅提升:扩展性大幅提升:资源调度和管理能够根据业务峰谷实现大数据计算组件的弹性伸缩。资源利用率提升:资源利用率提升:通过存
4、算分离和离在线混合部署等,提升资源利用率,节省整体成本。标准化发布流程:标准化发布流程:基于容器化技术,实现大数据组件的标准化部署与升级。数据平台发展趋势:云原生数据平台发展趋势:湖仓一体数据湖(Hadoop)数据仓库(MPP)湖仓融合湖仓融合ETL湖仓一体(Lakehouse)是指融合数据湖与数据仓库的优势,形成一体化、开放式数据处理平台的技术。它是一种新的数据管理范式,从根本上简化了企业数据基础架构根本上简化了企业数据基础架构,并且有望在机器学习已渗透每个行业的时代进一步加速创新。数据源结构化半结构化非结构化数据应用BI报表查询数据湖(Hadoop)数据仓库(MPP)湖仓一体湖仓一体计算移
5、动数据源结构化半结构化非结构化数据应用BI报表AI&ML统一存储统一元数据湖仓数据治理LakehouseLakehouse关键:关键:开放式存储格式 统一元数据管理 多样化计算引擎数据平台发展趋势:存算分离HadoopHadoop集群集群ResourceManager资源调度集群(资源调度集群(YarnYarn)NameNode存储集群(存储集群(HDFSHDFS)DataNodeNodeManager10Gb万兆网络ResourceManagerNodeManagerNameNodeDataNode存算耦合HadoopHadoop存算分离存算分离(私有云)Spark计算引擎计算引擎Flink
6、.资源调度集群(资源调度集群(K8SK8S)存储集群存储集群标准协议Spark计算引擎计算引擎Flink.云原生存算分离云原生存算分离(公有云)HDFSS3.OSSSpark计算引擎计算引擎Flink.MasterNode数据平台发展趋势:混合云、数据云私有云私有云数据平台数据平台公有云数据云公有云数据云公有云数据云公有云数据云跨境网络跨境网络混合云租户n混合云租户1私有云数据平台私有云数据平台租户n租户1数据跨境合规流动租户n租户1混合云租户1混合云租户n数据流动数据流动混合云租户1混合云租户n挑战一:大数据组件信创适配CPU芯片鲲鹏飞腾海光龙芯.操作系统银河麒麟中标麒麟统信UOS欧拉.数据