当前位置:首页 > 报告详情

云器科技:2025技术白皮书:通用增量计算101(41页).pdf

上传人: 云朵 编号:718424 2025-06-30 41页 3.46MB

下载:

1、 https:/www.yunqi.tech/题:技术书:通增量计算 101 Title:Generic Incremental Compute 101:the world unifying batch and streaming https:/www.yunqi.tech/录 编者按.2 背景-Kappa 架构最佳设计是什么,是个年的问题.3 批处理做到了什么?-批计算的本质.7 流计算针对批处理扩展了什么?-从 Streaming 101 谈起.7 1.扩展:流计算提出界数据(unbounded data)的概念,以及数据的序性和晚数据(Late Event)的问题.8 2.扩展:在流数据

2、上保证致性.10 3.扩展三:已经产出计算结果,但新输数据包括对之前数据的修改,如何处理?.11 4.流计算模型结.11 通增量计算概念和原理.13 通增量计算的 4 个标准 “SPOT”.14 基于增量计算的系统设计.15 关键技术概述.17 1.声明式定义.17 2.动态表与数据流.20 3.通增量计算框架.23 4.性能评估.27 5.些限制项.31 如何使增量计算.32 业务场景.32 增量数据加载.32 实现总结.35 其他相关的作.36 对未来展望.38 致谢.39 https:/www.yunqi.tech/编者按 从流计算概念提出算起,数据计算技术发展了年。这年中,组装式 La

3、mbda 架构成为业界主流,如何打破 Lambda 架构天的数据处理“不可能三”,实现真正的 Kappa 架构是从业者中的个“圣杯”。笔者所在团队云器科技(yunqi.tech)是国内较早探索通增量计算技术团队,在 2021 年成即将增量计算和 Kappa 架构作为核标,团队在 2023 年发布会次提出“通增量计算”(Generic Incremental Compute,简称 GIC)概念并发布最初版本。经过年的众多客户场景检验,我们证明了通增量计算模型已经是套切实可落地的技术案,基于此 Kappa 架构会在未来五年替代 Lambda 成为主流。本是我们过去三年我们作的总结。通过分析批计算和

4、流计算模型的本质,回答在过去年了他们为什么没办法做到 Kappa 架构。之后介绍“通增量计算”的概念和技术原理,并概述我们通过通增量计算实现Kappa 架构的最佳路径。https:/www.yunqi.tech/背景 -KappaKappa架构最佳设计是什么,是个年的问题 以关系计算理论为核的数据库技术(Database 时代)发展数年后,在 2000 年左右撞上了扩展性的瓶颈。随后,以扩展性分布式理论为核设计的数据系统(Big Data 时代)开始速发展,继承 Map-Reduce 的典型批处理模型,先成为数据的主流技术。但因为批处理向吞吐优化设计,以及缺乏实时处理能的缺陷,使得流计算诞并成

5、为与批处理并列的计算模式。此,经典的 Lambda 架构诞,并成为主流架构,并出现典型的“数据不可能三”(即数据新鲜度、低成本、性能三个法同时获得)。图 1:数据处理的“不可能三”,批、流、交互分别向个向优化 https:/www.yunqi.tech/图 2:Lambda 架构 VS Kappa 架构 Lambda 架构的主要缺陷从业者都很清楚(例如架构复杂、数据/计算冗余、数据致性差、系统复杂度、开发成本)。为实现新代 Kappa 架构,业界也有多种尝试(包括 Apache Flink 在多年前就项探索流批体),但均没有成功。“哪种计算模型能最终实现 Kappa 架构?”,已经是个年的问题

6、。本,提出种新的“通增量计算”模式,Generic Incremental Compute(GIC),模式的设计标是统当前主流的批、流、交互三种计算模式,实现 Kappa 架构并覆盖数据不可能三。下表是主流计算形态的概要对。https:/www.yunqi.tech/图 3:基于通增量计算统流批两种计算形态 批计算 流计算 通增量计算 数据模式 静态数据 动态数据(但仅持管道输输出)动态数据 计算模式 全量计算 流计算(增量计算的个特例)增量计算 表 1:模式对-通增量计算、批计算、流计算 https:/www.yunqi.tech/本组织结构如下:1.从批处理说起,分析批处理解决了哪些问题

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了通用增量计算(Generic Incremental Compute, GIC)的概念、原理和技术实现。GIC旨在通过增量计算统一批处理、流处理和交互式查询,实现Kappa架构。文章首先分析了批处理和流处理的特点,指出流处理扩展了无界数据、数据无序性、一致性保证等概念。然后提出了GIC的四个标准:标准SQL语法、高性能、开放格式、新鲜度与成本平衡。关键技术包括声明式定义、动态表、增量计算框架等。性能测试显示,GIC比流处理引擎Flink节省3-10倍资源。最后,通过案例展示了GIC在日志处理、用户画像等场景中的应用。文章展望了GIC未来的发展方向,包括语法支持、性能优化、新鲜度优化、运维体系完善等。
如何实现Kappa架构? 增量计算的优势是什么? 如何使用增量计算?
客服
商务合作
小程序
服务号
折叠