《6-2 StarRocks 的实时数仓之路.pdf》由会员分享,可在线阅读,更多相关《6-2 StarRocks 的实时数仓之路.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、StarRocks的实时数仓之路StarRocks PMC 李超勇为什么做实时数仓2更好的适配Flink3后续计划401存储引擎的新进展StarRocks为什么要做实时数仓1.数据从产到消费的周期,从天下降到秒2.数仓使从公司管,下层到线运营员 QPS 从10-1000,响应时间从1min-1s3.实时数据的流量爆发式增。StarRocks单集群,均消费Kafka记录达到1000亿条/sStarRocks典型案例红书告中业务:持各类搜索告和效果告Star顺丰科技运单业务:基于StarRocks实时更新能构建微信监控:撑付、视频号、微信搜搜、微信安全等超的实时监控业务华润万家:撑华润各类零售报表
2、StarRocksStarRocks的数据流图为什么做实时数仓1存储引擎的新进展3402更好的适配Flink后续计划持续优化导性能导全流程接新的Pipeline引擎提供2PC事务语义,降低流式数据(Flink/Spark Streaming)接成本提供Replicate Storage的功能,多副本导效率幅提升Kafka Topic任务调度更加智能,最集群均接1000亿条记录JSON/Parquet解析全向量化,幅提升者的速度数据集ClickBenchClickBenchClickBenchTPC-DS宽表(10800列)件格式CSVJSONParquetCSVCSV件70G217G14G1T
3、1.2T导速度1.1 GB/s400MB/s1.2 GB/s1.35 GB/s522MB/s测试机型:阿云 ecs.g6.8xlarge 3台StarRocksPrimaryKey V1现状StarRocksPrimaryKey V1的局限StarRocksPrimaryKey V2 Persistent IndexStarRocksPrimaryKey V2 Persistent IndexStarRocksPrimaryKey V2 Partial UpdateStarRocksPrimaryKey V2 Partial UpdateStarRocksPrimaryKey V2 Condi
4、tonal UpdateStarRocksPrimaryKey V2 MVCC Refactor and Redesign compactionStarRocksPrimaryKey V2 Support update/delete SQL 142更好的适配Flink03为什么做实时数仓存储引擎的新进展后续计划StarRocks传统MySQL CDC链路1.表数据量,开发难度2.Schema变更操作繁琐3.Flink占量资源StarRocksFlink CTAS&CDAS介绍StarRocksFlink CDC到StarRocks的新链路StarRocksStarRocks Flink Connector V2 Support Two Phase Commit后续计划0412更好的适配Flink3为什么做实时数仓存储引擎的新进展StarRocks统建表和导语法1.stream load(HTTP)2.broker load(HDFS)3.spark load(Spark)4.routine load(Kafka)5.insert intoinsert into1.unique key2.aggregate key3.duplicate key4.primary keyprimary keyStarRocks存表StarRocks物化视图