《Datafun-数据湖联邦分析特性揭秘 v.2.0 .pdf》由会员分享,可在线阅读,更多相关《Datafun-数据湖联邦分析特性揭秘 v.2.0 .pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、Apache Doris数据湖联邦分析特性揭秘陈明雨Apache Doris PMC Member2023 01 Apache Doris 数仓一体的思考02 Apache Doris 数据湖特性揭秘03 案例分享04 社区规划Apache Doris数仓一体的思考湖仓一体的思考数据库、数据仓库和数据湖 数据库:事务处理 数据仓库:数据分析、清洗后的高价值数据 数据湖:低成本海量数据存储、数据管理的一体化解决方案湖仓一体 湖、仓数据的无缝集成 湖、仓数据的自由流转湖仓一体的思考湖仓查询加速 提供高效的湖上数据查询加速统一数据分析网关 提供各类异构数据源的查询和写入能力统一数据集成 多数据源的增
2、量数据同步、加工处理、数据导出更加开放的数据生态 开放的数据格式和数据管理Apche Doris数据湖特性揭秘特性一览lcebergV1、V2TimeTravalHMSCatalog、RestCatalog、AwsGlueCopy-On-WriteMerge-On-Read:SnapshotQuery/ReadOptimizedQuery自动映射全量 Index 信息SQL 支持扩展的 ES 查询语法SQL 分析:Parquet/ORC/TextSchema 的自动推导支持 Externaltable、ManagedTable兼容 Hive1.x,2.x,3.x支持元数据手动、自动同步特性一览
3、-元数据连接统一的元数据结构 屏蔽不同数据源的元数据差异。可扩展的元数据连接框架 低成本、快速地接入数据源。高效的元数据访问能力 提供可靠、高效的元数据访问性能,并支持实时同步元数据变更。自定义鉴权服务 能够灵活对接外部的权限管理系统,降低业务迁移成本。Catalog-Database-Table特性一览-元数据连接CatalogInternal CatalogHive CatalogDatabaseTableHive Table in HMSdb in CatalogzJDBC CatalogES Catalog.Jdbc TableES TableIceberg/Hudi TableDat
4、abaseTableHive External TableIceberg/hudi Tablejdbc External TableEs External TableDatabaseOlap Table特性一览-元数据连接跨数据源访问可扩展的元数据连接框架 Hive、AWS Glue、Aliyun DLF特性一览-元数据连接高效的元数据访问 元数据缓存 元数据实时同步Listen特性一览-元数据连接统一鉴权服务 Apache Ranger、自定义鉴权插件 授权、审计、数据加密1423特性一览-数据访问特性一览-数据访问zz多一层内存格式转换无法利用 Page Index不支持 Bloom Fi
5、lter不支持字典编码直接转换为内部内存格式Page Index 更精确过滤无用数据利用 Bloom Filter 过滤数据支持字典编码支持延迟物化Arrow Parquet ReaderNative Parquet Reader特性一览-数据访问 Local File Cache 一致性哈希Local CacheConsistent Hash特性一览-数据访问FileScanNodeScannerSchedulerJDBCScanNodeOlapScanNodeParquet ReaderOrc ReaderText Reader.AggScanJoinScanScanner Thread
6、PoolzScan节点仅需关注数据源自身的访问无需关系上层复杂的调度和执行逻辑接入新数据源:1人周完备的极速向量化引擎基于代价的查询优化器算子优化Predicate PushdownJoin Runtime FilterStreaming Aggregation 通用查询能力的分层 Scan 算子的通用框架 统计信息和代价模型特性一览-性能表现BECompute NodeBEBEBECompute NodeRemote Storage无状态的 BE 节点,快速承接外部数据访问