1、FastData DLink 实时湖仓引擎架构设计与实践滴普科技 DLink SE/杨维亮 Will自我介绍杨维亮Deepexi-FastData产品线-DLink SE 专注于大数据与数据库内核领域。曾在华为2012实验室高斯部参与自研分布式内存数据库的架构设计与开发。对分布式架构、数据库内核、云原生数仓有深入的理解和实践 当前负责DLink产品的架构设计以及核心技术的预研工作目录 1)DLink 架构介绍2)DLink 核心功能3)DLink 落地实践4)DLink 未来规划DLink 架构介绍DLink 产品架构开放数据格式多级分区流批一体引擎OLAP引擎(联邦查询/多维分析/物化视图)
2、用户空间数据分析数据探查存储层技术元数据计算层服务层索引数据集成 DCT数据开发文件/块缓存加速层语义缓存中间结果缓存索引缓存冷热加速数据源业务库API/SDK图形/视频/音频物联网IOT事件流数据工程师数据分析师BI报表数据科学机器学习DLink 实时湖仓引擎分析和应用云端S3/OSS统一Catalog数据安全/权限分享服务DLink 实时湖仓架构计算引擎计算引擎FlinkFlinkODSAPP可视化BI报表自助分析数据源业务库APP应用物联网IoT统一存储引擎 IcebergIcebergDWDDWS实时获取+事件订阅湖仓实时/流式 join 分钟级数据延迟开发/建模CDC汇总计算ELTC
3、DCFlinkFlinkFlinkFlink数据集市实时数仓/离线数仓 分析引擎分析引擎/缓存层缓存层TrinoTrinoAlluxio Local CacheFlinkCDCETL/AdhocDLink 产品关键特性产品功能特性产品功能特性核心技术特性核心技术特性统一元数据管理统一元数据管理统一工作空间统一工作空间基基 于于 使使 用用 场场 景景项目空间管理项目空间管理数据探索数据探索数据开发数据开发数据科学数据科学即席数据查询即席数据查询作业管理作业管理统一元数据视图,集成大规模元数据管理,表和分区的元数据通过统一接口访问、持久化;使用高性能表格管理,可向多计算引擎添加表租户/项目空间级
4、别catalog管理;可用SQL创建和管理表单;支持Flink、Trino、Iceberg等多种引擎和表格式支持Oracle、MySQL、PostgreSQL、Hive等20+异构数据源的接入与集成支持用户自定义和管理connector异构数据源接入异构数据源接入机器学习(Python,R,各种机器学习库)强SQL标准支持(Spark SQL、Flink SQL、HiveQL等)其他工具(BI工具、IDE等)统一存储管理统一存储管理支持结构化、半结构化、非结构化数据存储;实现EB级的大规模存储部署;内置包括S3/OSS/HDFS/OBS的多模态的存储系统与分级存储,深度整合各类云存储运维监控运
5、维监控权限管理权限管理数据源管理数据源管理可以创建多个项目,为每个项目分配单独的资源和权限,管理数据源链接,多个项目间资源和权限完全隔离提供通用运维监控能力,支持通过WEB、外接消息机制对故障进行告警的能力,以及是否能够以日志记录告警信息可通过权限模板或单独授权的方式,批量或单独给成员授予操作及数据权限支持Oracle、MySQL、PostgreSQL、Hive等20多种异构数据源接入与集成管理提供数据视图功能,显示数据源数据schema信息、字段统计信息及相关数据样例,为用户提供数据源探查功能提供可视化DLink SQL作业提交和任务管理能力。支持在数据流上执行类SQL任务,SQL能力至少包
6、括:过滤、转换、基于窗口的计算能力、提供窗口数据的统计能力、关联能力、流数据的拆分与合并提供可视化算法开发界面,支持模型训练及快速测试和学习支持即席数据查询功能,支持多catalog的联邦查询,并可以JDBC、HTTP等方式支持数据分析结果输出支持3种作业类型:SQL 作业、JAR 作业、ETL 作业。支持在每个项目空间内提供创业作业、作业管理、作业包上传等功能。可为作业配置CPU及内存资源湖仓一体、流批一体、存算分离DLink 核心功能0.DLink 优于开源的功能Z-Order 数据排序BloomFilter 索引Hive存量数据快速迁移Iceber