7-1数据湖在网易的实践.pdf

编号:29701 PDF 29页 2.25MB 下载积分:VIP专享
下载报告请您先登录!

7-1数据湖在网易的实践.pdf

1、网易数据湖网易数据湖ICEBERG实践实践 范欣欣 - 网易大数据技术专家 0101 数仓平台建设的痛点 0202 0303 0404 数据湖Iceberg核心原理 数据湖Iceberg核心原理 数据湖Iceberg社区现状 数据湖数据湖Iceberg社区现状 网易数据湖Iceberg实践之路 网易Iceberg实践之路 0101 章节章节 PARTPART 数仓平台建设的痛点 数据仓库平台建设痛点一 凌晨NameNode压力很大,call请求延迟不稳定 任务ETL效率相对低效,一次ETL需要时间2个小时 一旦遇到磁盘坏掉或者机器宕机,Spark任务重试一次就会导致2小时延迟 数据仓库平台建设

2、痛点二 不可靠的更新操作 表schema变更低效 数据可靠性缺乏保障 数据仓库平台建设痛点三 Kafka无法支持海量数据存储,无法支持高效的OLAP查询 Lambda架构维护成本很高 数据仓库平台建设痛点四 数仓平台建设痛点 数据湖 高效ETL 准实时数仓 统一存储 基于HDFS 支持高效 Upsert 支持ACID、 Schema变更 等 数据湖Iceberg核心原理 0202 章节章节 PARTPART 数据湖Iceberg核心原理 数据湖Iceberg核心原理 数据湖Iceberg核心原理 Apache Iceberg is an open table format for huge a

3、nalytic datasets. 数据湖Iceberg核心原理 (分布式)文件系统 table format (schemapartitionmetadataapi) SQL引擎 文件集合 HDFS Metastore/Iceberg HiveServer/Impala/Spark Parquet/ORC/Avro 数据湖Iceberg核心原理 MetastoreIceberg schema CREATE TABLE action_logs_16( id int , user string , action string , music_id bigint , event_time timestamp , logs array ) 数据湖Iceberg核心原理 MetastoreIceberg partition date=20200616/ |- hour=18/ | |- . |-

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(7-1数据湖在网易的实践.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠