《Iceberg在腾讯内部的实践_2020_09_08_公开.pdf》由会员分享,可在线阅读,更多相关《Iceberg在腾讯内部的实践_2020_09_08_公开.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、协办方直播支持 腾 讯 大 数 据 技 术 系 列 沙 龙 第 3 期 新一代数据湖技术 李响腾讯 TEG 数据湖研发组 高级工程师 Iceberg在腾讯内部的优化和实践 数据湖技术 Iceberg基本原理 Iceberg应用落地 Flink Iceberg Sink实现 后续规划 目录 数据湖技术 4 1 什么是数据湖 存储 集中 海量 处理 方便 快速 分析 统一视图 多种引擎 数据湖对比数据仓库 数据湖数据仓库 数据来源社交媒体,移动应用,传感器打点,业务日志关系型数据库 数据类型非结构化,半结构化结构化 数据质量原始,全量加工,挑选 Schema 在读取的时候关心 (schema-on
2、-read) 变化 在规划和设计阶段定义好,为快速 查询优化 (schema-on-write) 固定 业务大数据分析,全文检索,数据挖掘,机器学习报表,展示,商业智能 投入产出基于廉价的硬件,提供尽可能快的查询基于昂贵的硬件,提供最快的查询 数据湖系统的核心能力 数据湖 数据质量 ACID事务 多种引擎 流批一体 多种底层存储 元数据 可扩展 数据修改 数据湖技术三剑客 数据湖系统的核心组件 构建于存储系统和文件格式之上的数据组织方式 保证ACID事务,及一定的并发能力 提供“行”级别的数据修改、删除的能力 确保schema的准确性,提供“热”变更能力 Iceberg基本原理 9 2 Ice
3、bergIceberg作为表格式作为表格式 Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table. Iceberg的核心思想 快照(snapshot):在时间轴上线性的记录表的所有变化 在某一时刻,表的所有数据文件的列表 每次更新操作会生成新的快照,并原子性的commit 实现 原子性 读写分离 时间旅行和版本回滚 增量消费 快照。 Iceberg的元数据管理 元数据: 结构 (schema) 分区信息 属性 快照历史记录 分层: HMS或者文件内容 当前的元数据JSON文件 快照 Manifest