《基于阿里云构建博学谷平台实时湖仓.pdf》由会员分享,可在线阅读,更多相关《基于阿里云构建博学谷平台实时湖仓.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、基于阿里云构建博学谷平台 实时湖仓赵晨杰黑马程序员技术专家Based on Ali Cloud to build Erudite Valley platform real-time lake warehouseContents目录01项目背景02架构演变03技术选型04实践环节项目背景New Future on Cloud New Future on Cloud New Future on Cloud01项目 背景第一家A股IPO的教育企业以就业为导向职业教育集团,旗下黑马程序员,博学谷,大同互联网大学等项目 背景博学谷作为传智教育旗下IT在线学习平台以博学谷实际业务为背景,基于阿里云构建博学
2、谷平台实时数仓架构演变New Future on Cloud New Future on Cloud New Future on Cloud02博学谷大数据平台 版本变迁V1.0V2.0V3.0Debezium Pulsar ClickhouseV1.0阿里云平台 Flink CDC FlinkPaimonStarRocksV3.0阿里云平台Flink CDC FlinkHologresnextFlink CDC Flink Hudi DorisV2.0博学谷大数据平台 1.0版l数据源Mysql的数据使用Debezium工具单机同步至Pulsar七陌及诸葛智能的数据采用Http的方式同步至P
3、ulsarl数据处理中间无处理,数据最终在Clickhouse中进行处理l数据存储Clickhouse直接消费Pulsar的数据,写入到Clickhouse中博学谷大数据平台 1.0版Debezium仅能单机部署,只能单并发读取binlog日志Clickhouse存储的是大量明细数据,会导致Clickhouse变得臃肿Pulsar与Clickhouse之间缺少数据的处理过程Clickhouse单表查询性能强劲但多表join性能相对较差缺乏数仓分层的概念和支撑MySql业务数据库l数据源使用Hudi存储原始数据使用Doris存储宽表数据做查询分析l数据存储实时计算:使用Flink/Flink-S
4、QL进行实时数据处理l数据计算使用Flink CDC2.2作为同步工具将MySql数据多并发实时采集传输至存储端l数据采集使用Doris灵活用于自定义数据分析l数据分析博学谷大数据平台 2.0版通过Hudi仅能实现准实时Hudi延时较高流式日志数据未纳入基于开源组件部署维护不方便博学谷大数据平台 2.0版架构博学谷大数据平台 3.0 技术选型基于Flink CDC的数据采集方案支持丰富的连接器 项目使用Flink CDC采集MySQL的业务库实时数据Kafka和Paimon的数据下沉使用Kafka实现实时数仓分层 通过Paimon将Kafka数据持久化保存基于FlinkSQL流批一体架构Fli
5、nkSQL支持窗口、水印、容错机制 项目使用FlinkSQL集成FlinkCDC完成数据处理StarRocks与DataV数据可视化项目基于StarRocks实现实时OLAP分析 使用DataV完成业务大屏展示博学谷大数据平台 3.0 技术选型ECS(Elastic Compute Service)低成本高性能高可靠云服务器ECS一种全托管Serverless的Flink云服务高性能计算引擎阿里云实时计算FlinkStarRocks是基于EMR之上OLAP分析引擎实时OLAP分析引擎StarRocks内置丰富上下游连接器助力企业数据应用数据计算全栈开发Flink CDC&FlinkSQL支持高
6、吞吐的写入和低延迟的查询流批统一的湖存储Paimon阿里云BI可视化产品,满足多种业务展示需求数据可视化Data VMySql业务数据库l数据源使用paimon存储原始数据使用StarRocks存储宽表数据做查询分析数据存储实时计算:使用Flink/Flink-SQL进行实时数据处理数据计算使用Flink CDC作为同步工具将MySql数据多并发实时采集传输至存储端l数据采集使用StarRocks灵活用于自定义数据分析数据分析博学谷大数据平台 3.0 架构 流批一体基于Kafka和Paimon实现流批一体架构服务上云基于阿里云平台方便组件部署维护阿里云Flink版100%兼容Apache Fl