1、谢寅/StarRocks双剑合璧双剑合璧:Flink+StarRocks:Flink+StarRocks构建实时数仓联合解决方案RealReal-Time DataTime Data WareHouseWareHouse#1What is What is StarRocksStarRocks#2Build on Build on FlinkFlink&StarRocksStarRocks#3The The GoodcaseGoodcase#4In the futureIn the future#5#1#1RealReal-Time Data WareHouseTime Data WareHou
2、se实时数仓概述小时/分钟时间窗口驱动离线/微批处理数据源单一表现力差代码编程开发成本高秒级数据事件驱动实时流式处理数据源丰富表现力强平台化SQL开发核心技术难点核心技术难点实时计算技术演进实时计算技术演进乱序数据处理多流合并技术挑战数据一致性问题业务开发效率端到端低延迟典型的逻辑分层Oracle业务数据日志数据ReportOLAPAd HocDWSADSDWDODSDWSDWDODSDWSADSDWDODSADSDIMDIMDIMDWSADSDWSDWDDWDDWDODSODSODS离线数据实时数据MySQL#2#2What is What is StarRocksStarRocksStar
3、Rocks架构ETLViewMVDupAggUniqPkSourceSMTODBCFor OperationsStarRocks-ManagerH5AppMysql QuerySR Migration ToolParserAnalyzerTransformerRewriterOptimizerCatalogBdbjeCBOBIJDBCAPIOSSExecutor(Worker)BEVectorized ExecutionShortKey,Bitmap,BloomIndicesExecutor(Coordinator)Vectorized ExecutionExecutor(Worker)BEV
4、ectorized ExecutionExecutor(Worker)Vectorized ExecutionFEBEModels擅长场景自助分析固定报表典型场景StarRocks在复杂查询、高并发、实时分析等OLAP场景下,提升分析效率,实现数据价值最大化。自助式BI系统自助指标平台数据探查实时分析Dashboard看板实时数仓实时风控监控分析大屏广告主报表运营分析报表供应链统计报表运单分析报表用户画像精准营销客群圈选AB测试风控系统实时摄入能力实时摄入能力 直接订阅Kafka数据 提供Flink-Connector,Flink直接写入,exactly-once 适配Flink-CDC捕获T
5、P数据更新,实时更新StarRocks 聚合表提供实时聚合的能力 强大的执行引擎、优化器保证了数据库实时数据建模 生产后的数据可以直接serving 实现实时、离线数据统一融合 delete-and-insert 读取时无主键merge开销 相比于merge-on-read(unique),性能提升3-15倍实时摄入实时数据分析实时数据建模实时更新flinkflink-connectorconnector-starrocksstarrocksSink tableSource tableMySQLStarRocksFlink-cdc-connectorStarRocks-migrate-tool
6、sFlink-connector-starrocksStarRocks-migrate-toolsFlink-job SMT工具映射Flink表和StarRocks表结构 利用Flink-CDC同步TP库binlog,实现upsert/delete 满足ODS业务库的数据重现TP库 CDC flink-connector-starrocks结合stream load接口提供StarRocks的通用sink能力 工程代码或FlinkSql开发均可 Flink计算进行逻辑分层后,导入StarRocks用于下游查询分析Sink 能力1.物化视图:提取某些维度、指标建立对用户透明的预聚合表sum、mi