《基于RisingWave构建流式湖仓.pdf》由会员分享,可在线阅读,更多相关《基于RisingWave构建流式湖仓.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、陈梓麟 RisngWave Labs基于RisingWave构建流式湖仓我介绍 陈梓麟(Dylan)RisingWave流数据库内核研发(2022-now)阿云分布式数据库PolarDB-X内核研发(2018-2022)主要作向:SQL查询优化,分布式计算 RisingWave介绍和使场景 使RisingWave的基础概念 RisingWave与流式湖仓 核技术内幕 未来与展望 Agenda什么是RisingWave Rust SQL first 分布式流数据库 流处理增量计算 云原 存算分离什么是RisingWave什么是RisingWave-Ease-of-Use-Cost Efficie
2、ncyRisingWave架构RisingWave流数据库同时提 供流处理能与Serving能使场景Streaming ETL 使场景Streaming Analytics Why RisingWave-易性强-PostgreSQL协议-需部署多套组件-可直接对接DBT,Dbeaver,Grafana等-低成本-存算分离-中间结果可查 RisingWave介绍和使场景 使RisingWave的基础概念 RisingWave与流式湖仓 核技术内幕 未来与展望 AgendaRisingWave基础概念RisingWave基础概念Source-Source可以消费多种数据源数据-持多种Connect
3、or:Kafka,Pulsar,Kinesis-消息Encoding持AVRO,JSON,PROTOBUF,CSV,BYTES-可以便指定topic数据,及消费开始位置创建JSON格式的Kafka SourceRisingWave基础概念Table 创建消费DEBEZIUM CDC数据的table-Table可以消费所有Source持的数据源-Table会物化数据到表中,例如CDC场景则需要使Table-Table可增删改查-消息Encoding持:AVRO,JSON,PROTOBUF,CSV,BYTES-消息Format持:PLAIN,DEBEZIUM,CANAL,MAXWELL,UPSER
4、TRisingWave基础概念Materialized View-Materialized View增量实时维护流处理结果-构建层级Streaming Pipeline-持丰富的SQL语法-如:Join,Agg,Filter,集合运算,窗函数,查询,UDF,Grouping Sets,CTE,Lateral,Watermark-表达式:PG常表达式,Lambda表达式,半结构化数据处理函数使物化视图实时增量计算告点击率RisingWave基础概念Sink-Sink可以发送数据到多种下游系统-持Connector:Iceberg,deltalake,Clickhose,Doris,Pulsar,
5、Kafka,JDBC,Redis,Cassandra,ElasticSearch-Sink的format持append-only,upsert,debezium-Sink的输可以是Materialized View,或者是SQL创建Iceberg SinkRisingWave基础概念Index-索引可以创建在表或者物化视图上-加速Serving查询能-持指定Include列,distributed列-持表达式索引-动索引选择使索引加速物化视图或表的查询性能 RisingWave介绍和使场景 使RisingWave的基础概念 RisingWave与流式湖仓 核技术内幕 未来与展望 Agenda什
6、么是LakeHouse-DataBricks 2021 ICDR-A data lakehouse is a data management system that combines the benefits of data lakes and data warehouses.什么是LakeHouse湖仓发展趋势-云原-数据开放-数据实时-低成本-简单易基于RisingWave构建流式湖仓-Realtime-Ease-of-Use-Cost Efficiency-Stream Processing-Open Format-High performance