1、许世彦Apache Hudi PMC,Onehouse 开源项目负责人Apache Hudi 1.0 新功能预览提纲Apache Hudi 简介Hudi 1.0 的重新思考Hudi 1.0-beta 的重点新功能 Apache Hudi 简介Apache Hudi 简介开开发发格式格式CDC 增量支持增量支持事事务务+并并发发内置性能内置性能调优调优+更多更多自自动动数据目数据目录录同步同步MOR 流式写入流式写入AWS Glue Data CatalogMetastoreBigQuery数据目录+更多湖仓平台Apache Kafka原始的清洗过的衍生的存储层Hudi 平台架构存储层(Clou
2、d Object Stores,HDFS,)开放文件数据格式(Parquet,HFile,Avro,Orc,)并发控制(OCC,MVCC,Non-blocking,Lock providers,Scheduling.)表服务(cleaning,compaction,clustering,indexing,file sizing,.)索引(Bloom filter,HBase,Bucket index,Hash based,Lucene.)表格式(Schema,File listings,Stats,Evolution,)缓存*(Columnar,transactional,mutable,WI
3、P,.)元数据服务*(Stats,table service coordination,.)事事务务性数据性数据库层库层查询引擎(Spark,Flink,Hive,Presto,Trino,Impala,Redshift,BigQuery,Snowflake,.)平台服务(Streaming/Batch ingest,various sources,Catalog sync,Admin CLI,Data Quality,.)用用户户交互交互层层读取器(Snapshot,Time Travel,Incremental,etc)写入器(Inserts,Updates,Deletes,Smart L
4、ayout Management,etc)编编程程 API 层层Hudi 1.0 的重新思考历时 5在0.X版本系列中增加了更多功能,并有一个活跃的社区来验证这一愿景年,从孵化起“事务性数据湖”,“流式数据湖”先行者的困境一个被当时查询引擎项目思维限制的激进新想法。Donec risus dolor porta venenatis Pharetra luctus felisProin vel tellus in felis volutpat Molestie nec amet cum sociis怎样实现更通用的数据库体验为数据湖构建第一个具有多语言持久性的事务性数据库?回溯新的机会查询引擎偏
5、好独立的集成。需要维护特定的Hudi连接器。通过Hudi的高级能力和多模式索引,改进了查询规划和执行。深度查询引擎的集成由于Apache Spark和Apache Flink等引擎的进步,实现了成熟的SQL支持。为支持Hudi表中的键提供了泛化数据模型。泛化的关系型数据模型迁移到混合架构:数据采用无服务器,表元数据采用有服 务器。元数据扩展性好。解决了不断发展的并发控制需求有服务器+无服务器支持具有索引、变更和变化捕获的复杂、非结构化、大型数据块。扩展到机器学习/自动学习建模、图像和视频处理应用。非结构化数据反向流式数据快照管理诊断报告工具跨区域复制TTL管理提升的自我管理能力数据数据库库体体
6、验验对比数据库组件DBMS的主要组件。Courtesy:The seminal database paper:Architecture of a Database System 突出显示了Hudi 现有的(绿色)和新的(黄色)组件,以及外部组件(蓝色)。参考 RFC-69Hudi 1.0-beta 的重点新功能https:/ In all,we propose Hudi 1.x as a reimagination of Hudi,as the transactional database for the lake,with polyglot persistence,raising the l