当前位置:首页 > 报告详情

网易数据湖调研与实践-范欣欣.pdf

上传人: li 编号:29785 2021-02-07 34页 3.02MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了网易在数据湖建设方面的实践和规划,特别是对Iceberg table format的应用和优化。文章首先指出了数仓平台建设中存在的痛点,包括小时/分钟级别分析需求与T+1天级别延迟之间的矛盾,以及实时计算与离线计算的时效性、量本问题。接着,文章深入讲解了Iceberg的核心原理,包括其作为开放的数据湖table format的特点,以及其在分布式文件系统上的应用和SQL引擎的集成。Iceberg的新partition模式、metadata模式和新API模式都被提出来解决现有数据处理中的问题,提升查询性能和数据处理效率。文章还介绍了网易在Iceberg实践方面的成果,如ODS层改造、统一存储的准实时数仓建设、Iceberg基建完善以及小文件治理。最后,未来规划部分提及了基于Iceberg平台建设的元数据中心、数据资产管理、表权限管理、血缘管理、生命周期管理等功能,以及Iceberg内核功能的增强,如row-level delete和数据增量入湖等。
"网易如何利用Iceberg优化数据湖?" "Iceberg如何实现数据的高效管理和计算?" "如何通过Iceberg实现实时数据分析和处理?"
客服
商务合作
小程序
服务号
折叠