1、StarRocks构建实时数仓的新探索2022-03-24 王天宜|StarRocks 实时数仓户案例录|01020304实时数仓经典架构与特点StarRocks 实时数仓产品定位StarRocks 实时数仓建模式实时数仓经典架构与特点|实时数仓 1.0-Storm 架构SpoutBoltBoltBoltSpouttuplestuplestuplestuples|实时数仓 2.0-Lambda&Kappa 架构Kappa 架构批处理实时处理计算引擎数据服务服务层数据存储结果数据历史数据Lambda 架构应层实时 分析实时 屏实时 推荐实时 查询应层实时 分析实时 屏实时 推荐实时 查询数据存储
2、结果数据历史数据实时处理计算引擎数据服务服务层|实时数仓 3.0-Flink 架构数据采集户为业务数据系统志爬数据数据源实时应实时分析实时屏实时查询实时推荐消息队列数据存储KafkaPulsarCanalFlumeLogstashDebezium|StarRocks实时数仓定位与产品能实时数仓新挑战数据采集户为业务数据系统志爬数据数据源实时应实时分析实时屏实时查询实时推荐消息队列数据存储KafkaPulsarCanalFlumeLogstashDebezium数据传输链路 链路冗,数据经过采集层,消息队列,Flink 分析层存储 技术栈复杂,多种数据存储引擎配合功能性缺失 数据更新能弱,查询并
3、发量低,去重困难|StarRocks 在实时数仓态定位实时应实时分析实时屏实时查询实时推荐户为业务数据系统志爬数据数据源数据采集MySQL维度数据FileStarRocks数据湖LogstashDebeziumCanalODSDWSDWDODSODSODSDWSDWSDWDDWDODSODS|StarRocks 实时数仓能实时数据摄 直接订阅 Kafka 数据 提供 Flink-Connector,Exactly Once Flink CDC 直接捕获 TP 数据变更实时数据更新 PK 模型提供 Delete and Insert 更新式 性能相 Merge on Read 提升 3-15 倍
4、实时数据建模 聚合模型提供实时聚合能 向量化引擎,实时 Join 能撑多种模型 提供物化视图实现抢致性实时数据分析 产后的数据可以直接使 实时、离线数据统融合数据源实时应报表业务指标监控客群圈选智能分析MySQLFile维度数据ADSODSDWDDWSADSODSDWDDWSADSDWSStarRocksODSDWD数据湖数据采集CloudCanalFlumeLogstashBI 业务户为业务数据志系统爬数据|StarRocks 实时数仓能实时数据摄 直接订阅 Kafka 数据 提供 Flink-Connector,Exactly Once Flink CDC 直接捕获 TP 数据变更实时数据
5、更新 PK 模型提供 Delete and Insert 更新式 性能相 Merge on Read 提升 3-15 倍实时数据建模 聚合模型提供实时聚合能 向量化引擎,实时 Join 能撑多种模型 提供物化视图实现抢致性实时数据分析 产后的数据可以直接使 实时、离线数据统融合数据源实时应报表业务指标监控客群圈选智能分析MySQLFile维度数据ADSODSDWDDWSADSODSDWDDWSADSDWSStarRocksODSDWD数据湖数据采集CloudCanalFlumeLogstashBI 业务户为业务数据志系统爬数据|StarRocks 实时数仓能实时数据摄 直接订阅 Kafka 数
6、据 提供 Flink-Connector,Exactly Once Flink CDC 直接捕获 TP 数据变更实时数据更新 PK 模型提供 Delete and Insert 更新式 性能相 Merge on Read 提升 3-15 倍实时数据建模 聚合模型提供实时聚合能 向量化引擎,实时 Join 能撑多种模型 提供物化视图实现抢致性实时数据分析 产后的数据可以直接使 实时、离线数据统融合数据源实时应报表业务指标监控客群圈选智能分析MySQLFile维度数据ADSODSDWDDWSADSODSDWDDWSADSDWSStarRocksODSDWD数据湖数据采集CloudCanalFlum