当前位置:首页 > 报告详情

7-1数据湖在网易的实践.pdf

上传人: li 编号:29701 2021-02-07 29页 2.25MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
网易数据湖ICEBERG实践范欣欣分享的内容主要涉及数仓平台建设的痛点、数据湖Iceberg的核心原理、Iceberg社区现状以及网易在Iceberg上的实践。 痛点包括:1) 凌晨NameNode压力大,请求延迟不稳定;2) ETL效率低效,一次ETL需要2个小时;3) 磁盘坏掉或机器宕机,Spark任务重试一次导致2小时延迟;4) Kafka无法支持海量数据存储,无法支持高效的OLAP查询;5) Lambda架构维护成本高。 Iceberg的核心原理包括:1) 分布式文件系统table format(schema, partition, metadata, api);2) SQL引擎文件集合HDFS、Metastore/Iceberg、HiveServer/Impala/Spark、Parquet/ORC/Avro。Iceberg的优点有:1) 新partition模式降低NameNode压力,提升查询性能;2) 文件级别列统计信息可以用来根据where字段进行文件过滤,减少扫描文件数,提升查询性能;3) 新API模式支持批流一体,流式写入-增量拉取,支持批流同时读写同一张表,统一表schema。 Iceberg社区现状:1) Iceberg内核(0.9.0)支持Spark 2.4.5、Spark 3.0.0、PrestoDataFrame数据写入查询、SQL DDL/DML、小文件Compaction/Snapshot过期机制、增量订阅消费/Hive表转成Iceberg表、Delete/Upsert、Hive Flink Connector。 网易Iceberg实践:1) 压缩日志数据30T,处理成百上千分区,11万+文件,任务初始化时间从40min缩短到8min,大幅提升大离线ETL任务执行效率;2) 完善Iceberg对接OLAP查询引擎生态,如Impala支持建内(外)表/基于Impala查询、Spark 2.4.5支持SQL方式读写HiveSQL建内(外)表/基于HiveSQL查询。
"网易如何利用Iceberg优化数仓建设?" "Iceberg的核心原理是什么,如何解决大数据存储难题?" "网易Iceberg实践带来了哪些性能提升和实际效益?"
客服
商务合作
小程序
服务号
折叠