当前位置:首页 > 报告详情

3-2 数据湖 Iceberg 在小米的落地及实践.pdf

上传人: 云闲 编号:102388 2021-01-01 33页 2.40MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了 Apache Iceberg 在小米数据湖中的应用实践。Iceberg 是一种适用于大数据分析的开源表格式,能够在不同的计算引擎如 Spark、Trino、PrestoDB、Flink 和 Hive 中使用。小米在使用 Iceberg 技术后,实现了存储与计算的分离,使得计算引擎的选择更加灵活,并有效地屏蔽了底层文件存储的细节。 核心数据包括: - Iceberg 表文件布局包括 Metadata、Snapshot、Manifest 和 Data File。 - 小米的数据湖中包含超过 4000 张表和 8PB 的数据量,其中 V1 表有 1000 多张,V2 表有 3000 多张。 - Iceberg 在小米的应用实践包括近实时分析支持、低成本的 Schema 变更、以及流批一体的探索。 关键点如下: 1. Iceberg 技术简介:它是一种存储与计算分离的表格式,支持高效的大数据分析。 2. Iceberg 在小米的应用实践:小米利用 Iceberg 实现了数据的近实时分析,低成本的 Schema 变更,以及流批一体的数据处理。 3. 基于 Iceberg 的流批一体的探索:小米使用 Lambda 架构,通过 Iceberg 存储和 Flink 计算引擎的统一,支持实时和离线数据的回溯和 OLAP 查询。 4. 未来规划:小米计划跟进 Flink CDC2.0,优化 Compaction 过程,并跟进 Flink 1.14 的更新。
"Iceberg在小米如何实现数据湖?" "如何利用Iceberg实现流批一体?" "Iceberg的未来规划有哪些亮点?"
客服
商务合作
小程序
服务号
折叠