当前位置:首页 > 报告详情

Iceberg在腾讯内部的实践_2020_09_08_公开.pdf

上传人: li 编号:29727 2020-12-01 20页 5.10MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了腾讯在数据湖技术领域的研究与实践,特别是对Apache Iceberg这一开源表格式在腾讯内部的优化和实践。Iceberg是一个适用于大规模分析数据集的表格式,它为Presto和Spark添加了类似SQL表的高性能格式,并提供了ACID事务、行级别数据修改等能力。文章详细阐述了Iceberg的核心思想——快照机制,以及其元数据管理、数据入库流程优化、支持多种分析引擎、灵活的文件组织等优势。腾讯的实践表明,Iceberg可以大大简化ETL流程,减少数据入库延迟,并支持流式数据处理和增量消费。此外,文章还介绍了Flink Iceberg Sink的实现原理和后续规划,包括其如何融入腾讯内部平台,提高易用性,支持更新和删除操作等。
李响分享Iceberg优化实践" 如何提升大数据处理效率?" 如何打造高效的数据湖存储解决方案?"
客服
商务合作
小程序
服务号
折叠