1、RisingWave x 特征工程解锁实时特征新范式Patrick Huang|RisingWave LabsAbout MePatrick HuangRisingWave Labs-VP of Engineering(DB Kernel&Storage)Wechat Infra-Staff Engineer(Large-scale Online Storage)LinkedIn Infra-Senior Engineer(Kafka&Next-gen Streaming Platform)CMU DB Labs-Research Assistant(Peloton DBMS)23Rising
2、WaveStreaming Processing+Fast Serving Store4RisingWave 诞生于 2021 年初,开发团队由资深数据库研究院,于来自AWS Readshift、Snowflake、Linkedin、Uber等知名企业的技术专家共同组成。我们的使命是为企业数据平台提供实时、可靠、高效、低门槛的事件处理工具,帮助企业利用实时数据实现业务增长。经过三年的打磨,RisingWave已成为第三代流处理系统中最具代表性的产品,在全球范围内在互联网、金融、能源、航空航天、供应链、智能汽车等多个领域的生产环境中落地应用。目前,RisingWave 全球日活集群已达1700+
3、个。RisingWave5Ease of UsePostgreSQL+UDF的交互接口Streaming+Serving内部状态SQL可查Quick Start on your laptop(Linux/macOS)with RisingWave Standalone curl https:/ psql-h localhost-p 4566-d dev-U roothttps:/ Once强一致持久化CheckpointZero Downtime弹性伸缩/快速恢复支持20+路多流Join和复杂流式变换支持长时间窗口大状态的流处理7Open EcosystemSourceMQ:Kafka、Pul
4、sar、RepandaCDC:Debezium、MySQL、PGApache Iceberg、FilesSinkKafka、Pulsar、RepandaClickhouse、Starrocks、ES、RedisIceberg、Delta Lake8Cost Efficient低成本的对象存储作为State BackendNo Vender Lock-in.对象存储支持:S3、Azure Blob、GCS、OSS、COS、OBSMinIO、HDFS、DFS、.存算分离、独立扩缩多级缓存Serverless CompactionRisingWave架构架构9场场景分析:景分析:实时实时特征工程特征
5、工程10场场景分析:景分析:实时实时特征工程特征工程11Training链路从上游数据源摄入数据,同时清洗+选择构建训练所需的特征样本拼接(特征+label)实时模型训练场场景分析:景分析:实时实时特征工程特征工程12Inference链路摄入数据(用户行为)构建行为特征查询Feature Store,特征拼接构成完整特征向Model喂入特征完成Inference实时实时特征工程:架构上的挑特征工程:架构上的挑 战战13组件越多,运维越困难工程师需要熟悉不同的系统组件Debug需要排查多套系统的问题优化需要Fine Tune多套系统实时实时特征工程:架构上的挑特征工程:架构上的挑 战战14组件
6、越多,稳定性越难保障一个组件的故障会影响总体不同组件难以避免冗余状态和Buffer影响实时性的因素变多实时实时特征工程:架构上的挑特征工程:架构上的挑 战战15组件越多,上线周期越长工程师需要学习不同的接口与不同的组件交互数据存储在不同的地方,难以回测RisingWave x 特征工程特征工程16RisingWaveSQL+UDF构建构建Streaming Pipeline统统一的一的Data Source存存储储支持支持Serving查询查询实时实时流式流式SinkRisingWave x 特征工程:数据特征工程:数据 摄摄入入17来自DB的变更(CDC):MySQL、PostgreSQLT