1、FastDataFastData DLinkDLink 实时湖仓引实时湖仓引擎的架构设计与实践擎的架构设计与实践北京滴普科技有限公司FastData DLink PDT 总经理 冯森01 DLink 架构介绍目录02 DLink 核心功能03 DLink 落地实践04 DLink 未来规划DLinkDLink 架构介绍架构介绍湖仓一体平台演进趋势湖仓一体平台演进趋势TB 级几百TB级PB级数据类型数据处理分析时效离线准实时实时EB级以MPP、Hadoop/数据湖为代表的传统方案技术栈多且复杂,难以运维;数据链路时效性较低;数据急速膨胀导致原产品性能严重滑坡;总结:无法满足企业复杂数据实时智能化
2、处理需求数据量关系型数据半结构化数据非结构化数据DLink实时湖仓引擎MPP 数据库大数据平台(CDH/CDP)DLink LinkHouse基于iceberg/Hudi等多模湖仓存储引擎PB级实时存储引擎TarimDLink Mesh分布式数据湖的构建与管理,探查湖仓一体(DLink/MRS)GB 级分布式数据湖架构适应大型企业多级+多租户的数据场景;原创核心技术Tarim实现亚秒级海量数据存储+计算;云化方式提供数据服务。自主研发湖仓平台(信创基础软件)开放数据格式多级分区流批一体引擎OLAP引擎(联邦查询/多维分析/物化视图)用户空间数据分析数据探查存储层技术元数据计算层服务层索引数据集
3、成DCT数据开发文件/块缓存加速层语义缓存中间结果缓存索引缓存冷热加速数据源业务库API/SDK图形/视频/音频物联网IOT事件流数据工程师数据分析师BI报表数据科学机器学习DLink 实时湖仓引擎分析和应用私有化部署HDFS云端S3/OSS统一存储统一Catalog数据安全与权限分享服务DLinkDLink产品架构图产品架构图计算引擎FlinkODSAPP可视化BI报表自助分析数据源业务库APP应用物联网IoT统一存储引擎 IcebergDWDDWS实时获取+订阅湖仓实时 Join 支持分钟级数据延迟开发/建模CDC汇总计算ELTCDC计算引擎Flink计算引擎Flink数据集市实时数仓/离
4、线数仓分析引擎缓存层TrinoAlluxioDLinkDLink实时湖仓架构图实时湖仓架构图基于使用场景租户管理数据分析机器学习支持作业管理空间概览数据探查实时计算可创建多个项目,为每个项目分配单独资源和权限,管理数据源链接,多个项目间资源和权限完全隔离。提供通用运维监控能力,支持通过WEB、外接消息机制对故障进行告警的能力,以及是否能够以日志记录告警信息。提供已连接的外部数据源信息对应数据源存储的数据结构以及数据样例,探测数据连接连接性,提供自动生成ddl功能提供可视化Dlink SQL作业提交和任务管理能力。支持在流上执行类SQL任务,SQL能力至少包括:过滤、转换、基于窗口的计算能力、提
5、供窗口数据的统计能力、关联能力、流数据的拆分与合并。湖仓管理提供数据集模块,统一管理湖内数据;提供过期快照删除、小文件合并、删除孤儿文件等表运维功能,支持参数配置、策略配置及手动触发。支持即席查询,交互分析,物化视图,并支持多catalog的联邦查询,并可以JDBC、HTTP等方式支持数据分析结果输出支持非结构化数据入湖、管理及任务运维,支持特征存储,向量索引模型和特征实时查询。支持多种作业类型:SQL 作业、JAR 作业等。支持在每个项目空间内提供作业管理运维、作业包上传等功能。并可为作业配置CPU及内存资源。云中立架构,支持计算资源弹性扩缩容,存储高可用,自动监控,可独立部署任意规模的工作
6、负载,满足快速增长的业务需求云原生流批一体统一数据基础架构与开发逻辑,同时支持系统数据流作业与批作业,统一Connector,降低学习、使用、维护成本。支持结构化、半结构化、非结构化数据存储,内置包括S3/OSS/HDFS/OBS的多模态存储引擎与分级存储;支持Parquet、ORC行列存储兼顾,支持隐藏分区和分区进化多模数据的存储和管理存算分离存储计算分离架构,可根据业务特性动态升降配和扩缩容;支持直接读取离线数仓数据,系统负载均衡调度更加灵活,利用率更高,并以更低成本交付部署生产系统。实现了数据端到端加密与落盘再加密,统一身份鉴别、访问控制、安全认证,支持租户隔离、安全审计与数据全生命周期