《《数据与计算新范式:京东数据湖架革新之路》.pdf》由会员分享,可在线阅读,更多相关《《数据与计算新范式:京东数据湖架革新之路》.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、数据与计算新范式:京东数据湖架构新之旅2025.03.29 北京快元中张越京东零售资深技术专家数据湖核定位与特性2.京东Hudi核研特性3.业务落地与实践1.背景介绍数 仓 视 角站在数据平台及数仓发展的视角,上述挑战已成为该领域技术架构演进的核心驱动力,即如何以较低成本获取强实时性、高质量的数据,进而推动数据平台及数仓架构不断向流批融合、湖仓一体方向发展,这种技术收敛的架构逐渐成为大数据技术发展的重要趋势。主 要 矛 盾互联网行业的不断演进与业务的持续拓展,如何获取高质量的数据逐渐成为核心挑战之一。这种挑战体现在业务数据规模膨胀对于数据实时性、数据口径一致性、数据高效生产及获取的诉求愈发强烈
2、,而这与传统大数据平台离线、实时架构下数据口径不一致、实时数据占比低、两套链路存储计算及研发维护成本高的矛盾日益凸显。京 东 内 部作为技术演进的关键成果,数据湖正在各大技术厂商中得到广泛实施。在京东集团内部,数据湖技术也在迅速演进,展现出积极的增长势头,为业务数据的实时化转型提供了强有力的支持。数据湖的演进数 仓 视 角数 据 湖 演 进2021年Databricks发表题为Lakehouse:A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics的论文,文章首次给出Lakeh
3、ouse的定义。经过近两年的快速发展,目前数仓架构在企业中的演进已迈入第三阶段,即湖仓一体阶段。提 升 效 率Lakehouse一份存储、一套数据口径,为下游提供流、批两种查询方式,流批一体架构的优化,提升数据开发、运维和交付效率降 低 成 本通过Lakehouse技术,实现行级别更新和端到端增量改造,极大减少数据更新成本和全链路计算压力,降低计算和存储成本数据湖的定位数 据 湖 演 进在湖仓一体架构中,最关键的组成部分是数据湖表协议,它介于计算引擎和存储引擎之间,通过开放存储格式向上屏蔽底层文件存储细节,提供“表”的概念,并提供ACID事务保障、快照管理、行级更新、流批读写、湖表文件元数据等
4、核心特性。同时结合各种计算、OLAP引擎向下读写数据。数 据 湖 演 进HUDI=HadoopUpsertsanDIncremental具备传统数据库的核心能力:行级别Upserts、Deletes以及可插拔的主键索引Index的能力 原子性、事务性、自动回滚的等能力具备传统数仓的核心能力:适配Parquet、ORC等数据格式,适合海量数据多维分析场景 具备计算存储分离的特点,有更好的扩展性与资源使用率增量处理的能力:Hudi能够提供流读、流写的功能,从而构建端到端流式、分钟级、准实时增量模型数据湖核特性京东Hudi核研特性1.数据湖定位与核特性3.业务落地与实践2.湖表多模存储 数据湖结构的
5、局限性数据时效性目前以Hudi、Paimon为代表的数据湖技术已经具备端到端分钟级增量处理能力,由于数据湖存储基于分布式文件系统,其分钟级延迟几乎是极限。但是许多业务场景,如搜索推荐、广告归因和异常检测,都要求秒级实时响应。元数据割裂基于Hudi能够构建分钟级数据延迟的准实时链路,但与当前秒级时延的纯流链路存在元数据割裂的问题,无法满足基于业务时间溯源与探查等需求。扩展性有限Hudi目前依托于底层文件系统,在其上构建统一的元数据视图,提供包括原子性、索引能力以及行级别更新等特性,但仍然是“一表一存储”的设计,即表与底层物理存储一 一对应。这样的设计容易受到单个物理集群性能上限限制,且无法很好的
6、与大数据生态(HBase、Kafka、Redis)相结合。数据湖技术能够构建端到端分钟级时延、流批融合的数据链路,但仍然具备一定的局限性:湖表多模存储 整体架构数 据 湖 演 进湖表多模存储设计的核心逻辑是结合Hudi自身元数据,打破“一表一存储”的设计,构建统一的IO抽象层与Hudi逻辑表视图能力,实现数据湖表跨模态存储,即“一表多存储”。对外暴露逻辑表,实现对查询、写入端的透明;在不同存储介质间,扩展Hudi表服务能力,即通过Clustering/Compaction实现跨集群湖表文件布局优化。可插拔存储介质统一 IO 抽象层逻 辑 表 视 图湖表多模存储 湖表数据缓冲层数据可见性与数据时