1、数据库流式数据处理在实时分析中的应用郝峻青 Timeplus Proton 大纲1OLAP数据库融合流式数据处理背景2关键能力和场景挑战及技术方案3实际应用未来规划OLAP vs 流式数据处理92-00TapestryNiagaraCQ1970:Introduction of the term OLAP,“A Relational Model of Data for Large Shared Data Banks”-Edgar F.Codd1960s:APL Kenneth Iverson-持续查询-倒排数据库00-030409-1213-1920-状态-滑动窗口-CEPEsperIBM Sy
2、stem SAurora/BorealisOracle CQLSTREAMTelegraphCQEssbaseBusiness ObjectsMS OLAP ServicesMap ReduceTwitter Storm-多维表-SQL-内存计算-列式存储-数据分片-MPPSpark-乱序处理-状态管理-Stream SQLSpark StreamingFlink/BeamS StoreKafka Streams-预计算-高速数据写入-实时数据摄取-存算分离-向量化查询处理KylinClickhouseGoogle BigQueryDruidSybaseIQSnowflakeSAP HANA-
3、边缘计算-融合历史数据-统一SQL支持-状态查询-云原生-可扩展性-Best-Effort处理MaterializeRisingWaveTimeplus ProtonHazelcastS-QueryArroyo-云原生-数据湖融合-实时数据更新StarRocksFireboltPinot流式数据处理OLAP发展历程概要(1990)OLAP vs 流式数据处理应用场景设计目标数据处理为何融合不约而同流式数据计算OLAP运营智能(Operational Intelligence)持续实时分析:数据推动查询(根据时间或者发生的变化持续输出或者提供洞见),实时决策商业智能(Business Intel
4、ligence)按需实时分析:查询拉取数据(用户创建查询,系统交付结果),分析洞见常驻处理最优高吞吐量下的低延迟状态计算批量处理最优海量数据查询批处理极速响应有状态物理执行计划增量计算模型,基于有状态分桶的资源管理 最小延迟处理、基于数据流量的并行度、状态管理无状态物理执行计划批量计算模型,基于无状态分桶的资源管理 向量化执行、静态资源限制、最大化分布执行实时分析中的历史数据交互实时分析规模化数据驱动架构OLAP 数据库融合流式数据处理关键能力 统一关系型建模SUBSCRIBE TOWITH device_products as(SELECT uid,pid as id FROM table(
5、user_products)WHERE to_int(uid)1000)SELECT device_name,avg(temperature),predict(temperature)FROM tumble(devices,5s)INNER JOIN table(device_products)ON devices.product_id=device_products.id GROUP BY device_name,window_endSETTINGS seek_to=2021-12-02 10:00:00 EMIT AFTER watermark|LAST 30m1.Just one dec
6、larative SQL query 3.The most advanced streaming windowing&global functions 5.Intelligent watermark control can handle late events and time skew issues properly7.JOIN between stream and stream,or stream and table can drive more real-time analytics insights6.LAST X can help user focusing on whats hap