基于阿里云构建博学谷平台实时湖仓.pdf

编号:149574 PDF 36页 80.44MB 下载积分:VIP专享
下载报告请您先登录!

基于阿里云构建博学谷平台实时湖仓.pdf

1、基于阿里云构建博学谷平台 实时湖仓赵晨杰黑马程序员技术专家Based on Ali Cloud to build Erudite Valley platform real-time lake warehouseContents目录01项目背景02架构演变03技术选型04实践环节项目背景New Future on Cloud New Future on Cloud New Future on Cloud01项目 背景第一家A股IPO的教育企业以就业为导向职业教育集团,旗下黑马程序员,博学谷,大同互联网大学等项目 背景博学谷作为传智教育旗下IT在线学习平台以博学谷实际业务为背景,基于阿里云构建博学

2、谷平台实时数仓架构演变New Future on Cloud New Future on Cloud New Future on Cloud02博学谷大数据平台 版本变迁V1.0V2.0V3.0Debezium Pulsar ClickhouseV1.0阿里云平台 Flink CDC FlinkPaimonStarRocksV3.0阿里云平台Flink CDC FlinkHologresnextFlink CDC Flink Hudi DorisV2.0博学谷大数据平台 1.0版l数据源Mysql的数据使用Debezium工具单机同步至Pulsar七陌及诸葛智能的数据采用Http的方式同步至P

3、ulsarl数据处理中间无处理,数据最终在Clickhouse中进行处理l数据存储Clickhouse直接消费Pulsar的数据,写入到Clickhouse中博学谷大数据平台 1.0版Debezium仅能单机部署,只能单并发读取binlog日志Clickhouse存储的是大量明细数据,会导致Clickhouse变得臃肿Pulsar与Clickhouse之间缺少数据的处理过程Clickhouse单表查询性能强劲但多表join性能相对较差缺乏数仓分层的概念和支撑MySql业务数据库l数据源使用Hudi存储原始数据使用Doris存储宽表数据做查询分析l数据存储实时计算:使用Flink/Flink-S

4、QL进行实时数据处理l数据计算使用Flink CDC2.2作为同步工具将MySql数据多并发实时采集传输至存储端l数据采集使用Doris灵活用于自定义数据分析l数据分析博学谷大数据平台 2.0版通过Hudi仅能实现准实时Hudi延时较高流式日志数据未纳入基于开源组件部署维护不方便博学谷大数据平台 2.0版架构博学谷大数据平台 3.0 技术选型基于Flink CDC的数据采集方案支持丰富的连接器 项目使用Flink CDC采集MySQL的业务库实时数据Kafka和Paimon的数据下沉使用Kafka实现实时数仓分层 通过Paimon将Kafka数据持久化保存基于FlinkSQL流批一体架构Fli

5、nkSQL支持窗口、水印、容错机制 项目使用FlinkSQL集成FlinkCDC完成数据处理StarRocks与DataV数据可视化项目基于StarRocks实现实时OLAP分析 使用DataV完成业务大屏展示博学谷大数据平台 3.0 技术选型ECS(Elastic Compute Service)低成本高性能高可靠云服务器ECS一种全托管Serverless的Flink云服务高性能计算引擎阿里云实时计算FlinkStarRocks是基于EMR之上OLAP分析引擎实时OLAP分析引擎StarRocks内置丰富上下游连接器助力企业数据应用数据计算全栈开发Flink CDC&FlinkSQL支持高

6、吞吐的写入和低延迟的查询流批统一的湖存储Paimon阿里云BI可视化产品,满足多种业务展示需求数据可视化Data VMySql业务数据库l数据源使用paimon存储原始数据使用StarRocks存储宽表数据做查询分析数据存储实时计算:使用Flink/Flink-SQL进行实时数据处理数据计算使用Flink CDC作为同步工具将MySql数据多并发实时采集传输至存储端l数据采集使用StarRocks灵活用于自定义数据分析数据分析博学谷大数据平台 3.0 架构 流批一体基于Kafka和Paimon实现流批一体架构服务上云基于阿里云平台方便组件部署维护阿里云Flink版100%兼容Apache Fl

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于阿里云构建博学谷平台实时湖仓.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠