1、|新一代数据集成平台Apache Seatunnel(incubator)高俊 白鲸开源 架构师|2关于我开源爱好者开源爱好者10年大数据相关工作,主要从事大数据平台建设、OLAP引擎设计研发工作。开源爱好者,参与多个开源项目的贡献。Apache DolphinScheduler PMCApache SeaTunnel(incubator)ContributorTrino ContributorApache Arrow-Datafusion Contributor|01SeaTunnel的设计目标02SeaTunnel现状03SeaTunnel整体设计目录CONTENT|04近期规划|01Se
2、aTunnel设计目标数据源多数据源多数据源多达百种,版本间不兼容,且不断有新的出现简单易用的,分布式可扩展的支持超数据级的简单易用的,分布式可扩展的支持超数据级的吞吐低延时的数据集成平台。吞吐低延时的数据集成平台。资源使用高资源使用高频繁读取 binlog 对数据源端影响事务、Schema 变更影响下游低吞吐时延导致数据法及时到达技术栈复杂技术栈复杂企业技术栈差异,导致选择同步组件时需要更多的学习成本。质量和监控质量和监控数据丢失与重复,法致性出现问题法回滚或者断点继续执同步过程不透明,缺少监控管理维护难管理维护难离线同步和实时同步常被分开管理,维护困难数据割接进SeaTunnel的设计目标
3、|02SeaTunnel现状|SeaTunnel现状连接器数量支持的连接器有50+支持数据源Source20+支持目标端Sink 20+支持Transform 10+|同个连接器,只需要在env配置中指定job.mode为BATCH或STREAMING即可轻松切换离线和实时同步两种模式。支持离线同步和实时同步两种式支持离线同步和实时同步两种式流批体流批体只需要实现只需要实现个连接器个连接器适配纯流和适配纯流和微批微批SeaTunnel现状流批一体|多引擎支持多引擎支持SeaTunnel多引擎支持为了更好的兼容企业已有的技术态,降低使用SeaTunnel的技术成本.已经支持的引擎支持多个版本的F
4、link引擎,完美支持Flink的Checkpoint流程Flink支持Spark微批处理模式,支持聚合提交特性Spark专为数据同步场景设计的引擎,还在开发中。SeaTunnel内部引擎,为那些没有数据态的企业或追求数据同步最佳体验的用户提供可选案SeaTunnel EngineSeaTunnel现状多引擎支持|高吞吐高吞吐低延迟低延迟精确性精确性SeaTunnel支持Source/Transform/Sink的并行化处理,提高吞吐性能基于引擎提供的实时处理或微批处理实现低延迟分布式快照算法支持两阶段提交幂等写入Exactly-OnceSeaTunnel现状性能、一致性|SeaTunnel
5、社区现状|SeaTunnel 用户|03SeaTunnel整体设计|Engine independent Connector APIConnector TranslationSource ConnectorTransform Connector多引擎支持,多引擎支持,Spark/Flink/?Sink Connector010203040506SeaTunnel整体架构|SeaTunnel 使用方式|SeaTunnel Execution Flow|SeaTunnel Connector Flow|流批体流批体统了流和批的处理API,新的Connector只需要按API实现次,即可同时支持流处
6、理和批处理下的数据集成。03JDBC多复用多复用/数据库日志多表解析数据库日志多表解析支持多表或整库同步,解决JDBC连接过多的问题;支持多表或整库数据库日志读取解析,解决CDC多表同步场景下需要重复解析日志的问题。04与引擎解藕,专为数据集成与引擎解藕,专为数据集成场景设计场景设计.多引擎支持多引擎支持定义套SeaTunnel自的API,解决以往针对不同的处理引擎需要写两套不同的Connector的问题,实现套代码可在不同的引擎上执。01多版本支持多版本支持通过Translation层将Connector与引擎解藕,解决以往为了支持底层引擎个新的版本,