Iceberg在腾讯内部的实践_2020_09_08_公开.pdf

上传人： li

编号：29727

2020-12-01

PDF 20页 5.10MB

《Iceberg在腾讯内部的实践_2020_09_08_公开.pdf》由会员分享，可在线阅读，更多相关《Iceberg在腾讯内部的实践_2020_09_08_公开.pdf（20页珍藏版）》请在三个皮匠报告上搜索。

1、协办方直播支持腾讯大数据技术系列沙龙第 3 期新一代数据湖技术李响腾讯 TEG 数据湖研发组高级工程师 Iceberg在腾讯内部的优化和实践数据湖技术 Iceberg基本原理 Iceberg应用落地 Flink Iceberg Sink实现后续规划目录数据湖技术 4 1 什么是数据湖存储集中海量处理方便快速分析统一视图多种引擎数据湖对比数据仓库数据湖数据仓库数据来源社交媒体，移动应用，传感器打点，业务日志关系型数据库数据类型非结构化，半结构化结构化数据质量原始，全量加工，挑选 Schema 在读取的时候关心 (schema-on

2、-read) 变化在规划和设计阶段定义好，为快速查询优化 (schema-on-write) 固定业务大数据分析，全文检索，数据挖掘，机器学习报表，展示，商业智能投入产出基于廉价的硬件，提供尽可能快的查询基于昂贵的硬件，提供最快的查询数据湖系统的核心能力数据湖数据质量 ACID事务多种引擎流批一体多种底层存储元数据可扩展数据修改数据湖技术三剑客数据湖系统的核心组件构建于存储系统和文件格式之上的数据组织方式保证ACID事务，及一定的并发能力提供“行”级别的数据修改、删除的能力确保schema的准确性，提供“热”变更能力 Iceberg基本原理 9 2 Ice

3、bergIceberg作为表格式作为表格式 Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table. Iceberg的核心思想快照(snapshot)：在时间轴上线性的记录表的所有变化在某一时刻，表的所有数据文件的列表每次更新操作会生成新的快照，并原子性的commit 实现原子性读写分离时间旅行和版本回滚增量消费快照。 Iceberg的元数据管理元数据：结构 (schema) 分区信息属性快照历史记录分层： HMS或者文件内容当前的元数据JSON文件快照 Manifest

Iceberg在腾讯内部的实践_2020_09_08_公开.pdf

相关报告