《7-1数据湖在网易的实践.pdf》由会员分享,可在线阅读,更多相关《7-1数据湖在网易的实践.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、网易数据湖网易数据湖ICEBERG实践实践 范欣欣 - 网易大数据技术专家 0101 数仓平台建设的痛点 0202 0303 0404 数据湖Iceberg核心原理 数据湖Iceberg核心原理 数据湖Iceberg社区现状 数据湖数据湖Iceberg社区现状 网易数据湖Iceberg实践之路 网易Iceberg实践之路 0101 章节章节 PARTPART 数仓平台建设的痛点 数据仓库平台建设痛点一 凌晨NameNode压力很大,call请求延迟不稳定 任务ETL效率相对低效,一次ETL需要时间2个小时 一旦遇到磁盘坏掉或者机器宕机,Spark任务重试一次就会导致2小时延迟 数据仓库平台建设
2、痛点二 不可靠的更新操作 表schema变更低效 数据可靠性缺乏保障 数据仓库平台建设痛点三 Kafka无法支持海量数据存储,无法支持高效的OLAP查询 Lambda架构维护成本很高 数据仓库平台建设痛点四 数仓平台建设痛点 数据湖 高效ETL 准实时数仓 统一存储 基于HDFS 支持高效 Upsert 支持ACID、 Schema变更 等 数据湖Iceberg核心原理 0202 章节章节 PARTPART 数据湖Iceberg核心原理 数据湖Iceberg核心原理 数据湖Iceberg核心原理 Apache Iceberg is an open table format for huge a
3、nalytic datasets. 数据湖Iceberg核心原理 (分布式)文件系统 table format (schemapartitionmetadataapi) SQL引擎 文件集合 HDFS Metastore/Iceberg HiveServer/Impala/Spark Parquet/ORC/Avro 数据湖Iceberg核心原理 MetastoreIceberg schema CREATE TABLE action_logs_16( id int , user string , action string , music_id bigint , event_time timestamp , logs array ) 数据湖Iceberg核心原理 MetastoreIceberg partition date=20200616/ |- hour=18/ | |- . |-