1、DataFunSummitDataFunSummit#20232023基于Apache InLong全场景数据集成 演讲人-莫云卿-腾讯-高级大数据工程师自我介绍自我介绍莫云卿任职信息:腾讯云 DataInLong、Oceanus研发公司InLong(应龙)Oteam PMC/Apache InLong PMC技术成长:大数据平台建设,自研调度系统、离线作业开发平台 腾讯全链路数据开发平台WeData研发,WeData最早期数据质量、数据地图、数据安全建设者 推动InLong上云行业趋势及挑战平台与产品设计应用实践平台规划目录 CONTENTDataFunSummitDataFunSummit
2、#2023202301行业趋势及挑战开放腾讯业界领先开放腾讯业界领先的大数据服务的大数据服务实践实践腾讯云拥有业界领先大数据技术与口碑产品生态腾讯云拥有业界领先大数据技术与口碑产品生态产品:腾讯云EMR/ElasticSearch/TBDS/云原生数据湖计算DLC技术:TBDS 万节点认证/InLong海量集成能力/SortBenchmark性能冠军服务:近百技术贡献者/数百万代码贡献/丰富运维工具沉淀/海量算力调度技术生态成熟:以Hadoop为主大数据技术历经近18年发展,日趋成熟、生态完善技术多样化:如数据湖格式技术Iceberg、Hudi,MPP 分析Doris等开源技术百花齐放云原生革
3、新:云原生技术与大数据持续融合大数据技术历经18年发展大数据技术多样化发展,腾讯云原生服务厚积薄发大数据技术多样化发展,腾讯云原生服务厚积薄发开源腾讯的腾讯的大数据技术沉淀大数据技术沉淀河图数据资产管理01数据孤岛数据孤岛数据集成的必要性数据集成的必要性0504运维成本高运维成本高业务涉及数据源类型繁杂、数据存储系统分散,业务数据之间彼此孤立难以协作共享02业务数据需求丰富业务数据需求丰富企业持续发展衍生出越来越多样化的业务诉求,数据量更大,场景更实时,数据种类更丰富.业务涉及技术组件、硬件、及软件丰富,监控、异常告警触达等运维成本高昂03自建技术难度大自建技术难度大融合多种技术场景的数据传输
4、通道建设包括硬件布局与软件实施,其技术选型丰富、孵化周期长、技术迭代速度慢难以适应业务高速发展数字化进程不统一数字化进程不统一业务数字化转型过程中业务部门数字化程度不同,对云产品服务时候对技术、服务、运维的诉求难以统一06同一企业内不同或同一部门常常选购大量云产品服务,各服务存在冗余功能未形成统一生态,甚至造成非必要成本浪费云产品类型多,服务割裂云产品类型多,服务割裂业务驱动业务驱动技术技术驱动驱动大数据生态繁杂:开源Hadoop生态日渐完善,越来越多的技术栈兴起,传统业务数据库、NoSQL、数据湖、MPP以及搜索等技术在不同的业务场景发挥着不可替代的的作用,数据的入仓入湖需要匹配越来越多的场
5、景。HTAP发展短期承压:HTAP缺少大一统的产品或技术,数仓的生命周期要依赖多系统协同,跨源数据同步成了必不可少的一环。总线式架构总线式数据通道提高传输效率,降低建设成本数据云原生革新云原生技术与大数据技术的融合场景丰富化满足不同时效、不同技术方式数据传输场景生态一体化实现数据在云存储、计算、应用的全链路各环节内无缝流转市场市场趋势趋势对象多样化涵盖不同存储介质、不同结构的数据对象客户选择数据集成产品的数据集成产品的诉求不断变迁不断变迁点对点数据抽取工具点对点数据抽取工具总线式数据传输通道总线式数据传输通道全场景数据集成系统全场景数据集成系统生态化数据集成服务生态化数据集成服务数据集成工具的
6、发展组件丰富灵活各种技术组件提供插拔式灵活适配DataFunSummitDataFunSummit#2023202302平台与产品设计 DataInLong 源于由腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),内部InLongInLong(应龙)(应龙)OteamOteam协同共建协同共建依托 InLong 海量数据集成框架支持 百万亿级 数据接入与处理能力,提供全场景、安全可靠、高性能的数据传输服务数据集成DataInLong:产品概述Apache Apache InLongInLong :功能架构图:功能架构图数据源OpenAPI调度管理统一安全元数据管理审批