1、云上数据集成的挑战和实践腾讯云 高级工程师|01云上数据集成的挑战企业核心诉求梳理02云上数据集成平台设计方案和平台分析03云上数据集成产品落地DataInlong产品简介04云上数据集成的实践客户经典案例介绍目录CONTENT|01云上数据集成的挑战企业核心诉求梳理数据集成业务概述|交易数据CRM数据日志数据行为数据结构化数据非结构化数据半结构化数据数据开发平台流计算云数仓数据湖EMRESBIMYSQL数据源数据传输数据端集成组件集成产品计算组件DataxSqoopKettleFlinkSparkMRDPDWDI数据集成常用方案介绍|引擎数据源种类吞吐稳定性开源社区场景Sparkl 基于AP
2、I扩展l 高l 资源依赖复杂,环境适应性差l 顶级社区l 大批量l 实时同步l 数据转换Flinkl 社区有部分,支持行扩展l 高l 环境适应性、数据源亲和性差,跨集群访问配置复杂l 顶级社区l 大批量l 实时同步l 数据转换Sqoopl 支持的数据源种类偏少l 高l 基于MR框架,运行在hadoop集群,比较稳定l 顶级社区l 大批量l 实时同步l 数据转换Flink:部分场景吞吐优势,时延低,周期性数仓等场景下灵活性不足、资源利用率低。Sqoop:支持数据源种类少,基于MR框架,稳定性高。Spark:吞吐极高,参数配置复杂,稳定性差。企业对数据集成的诉求|企业诉求多样化数据源种类多单个链路
3、的数据源多数据源的数据格式多快速搭建开箱即用插件灵活扩展无缝衔接生态海量化TB级每小时百万条每分钟天级别持续运行运维简单屏蔽底层资源可拖拽配置数据传输可视化场景化大数据上云湖/仓搭建线上服务系统服务稳定容错性强准确率高故障自动恢复云上数据集成面临的挑战|技术支撑场景全面开箱即用生态一体|02云上数据集成平台设计方案和平台实现全场景数据集成解决方案设计|关键设计u 多Agent支持u 批流一体,配置统一u 读写端解耦业界类似的解决方案:AWS:kinesis+firehouse(多产品配合)华为:DIS(配套解决方案)阿里:DataHub(配套解决方案)高性能低延迟队列方案分析|inlong在数
4、据采集和消息队列间增加DataProxy,用于连接收敛、路由、数据压缩和协议转换消息队列异常出现发送失败时,DataProxy会将消息缓存到本地磁盘进行容灾转发毫秒级时延:基于毫秒级低时延消息队列,端到端数据同步秒级时延高性能:支持切换不同的缓存队列,基于存算分离架构的MQ在海量吞吐场景下具备更好的性能和稳定性ComparisonTubeMQKafkaPulsarLatencyVery low,10msLow,250msVery low,10msTPSHigh,14W+/sNormal,10W+/sHigh,14W+/s Filter consumeSupports client filter
5、 or server filterSupports client filterSupports client filterData No copiesMultiple copiesMultiple copiesReliabilityRelies on RAID 10LowHigh,autorecoveryStabilityHigh,running in Tencent for almost 8 years with 33 trillions of message per dayUnstable when topics growsHIghClient languagesupports Java
6、or C+1 client(Official support)7 kinds of clientCAP ModelAPAP or CPCP or AP数据集成弹性平台实现|任务底层抽象loadermanagerloadertaskloadertaskdeploymentpodpod容器CLSCDB云监控云生态产品.1.每个pod只属于一个任务2.一个任务可以使用多个pod3.manager主备高可用4.manager和task在不同的pod设计原则job managerresource manager队列队列proxyproxyck_sinkhive_sink原始日志原始数据库log_agen