大数据技术沙龙会议报告:网易数据湖调研与实践-范欣欣.pdf

编号:29542 PDF 33页 2.92MB 下载积分:VIP专享
下载报告请您先登录!

大数据技术沙龙会议报告:网易数据湖调研与实践-范欣欣.pdf

1、网易易数打造数据增量计算新架构-网易数据湖调研&实践C范欣欣网易大数据技术专家HBase&IcebergContributor,HBase原理与实践作者#page#网易易数数据仓库平台建设的痛点01数仓平台建设的痛点数据湖Iceberg核心原理02数据湖Iceberg核心原理网易Iceberg实践03网易Iceberg实践SMiL号未来规划04未来规划#page#网新牌D网易易数A1数仓平台建设的痛点章节PARTCr#page#数仓平台建设痛点网易易数业务日益增长的小时/分钟级别分析延退需求和平台当前T+1天级别延退之间的矛盾!#page#数仓平台建设痛点网易易数Lambda技术架构d-hoc

2、宣询HOR3SoarkafkaSkafkaSkafkaApache FlnkDWDDWSODSADDS#page#数仓平台建设痛点网易易数Lambda技术架构两套计算路径指标口径不统一HDFS&Kafka不支持upsert,延退不满足Kafka存储&OLAP能力不足#page#数仓平台建设痛点网易易数增量计算架构增量处理实时处理离线处理SminIhour5minlatencyeuesol、#page#数据湖Iceberg核心原理网易易数partitionIcebergMetastoredate=20200616/Scalospark.read.format(iceberg).locd(“hiv

3、eicebergtbl3.files”).showl-hour=18/11.file_pathlfile_forwatlpartitionlrecord_countlfile_sizeBytesI-hour=19/upper_boundsikey_metadatalsplit_offsetsl1l-click11-.11131633Ihdfs:/ntsdbo.jd.PARQUETIl-viewnu114!3163221Ihdfs:/ntsdbo.jd.PARQUETIl-hour=20nul1l【4!,2-.!11-.!#page#数据湖Iceberg核心原理网易易数metadataMetas

4、toreIceberg解释字段CSID列统计编号AG.COLLEN数据的平均长度MAX.COLLEN数据的最大长度COLUMNNAME列的名字COLUMN_TYPE列的类型DB_NAME数据库的名称BO.DECIMAHOHVAUE数据中最大的Docmal恒BIO.DECIMAL_LOWVALUE数据中最小的Decmnal值DOUBLEHGHVALUE酸据中最大的Doukle值DOUBLE.LOWVALUE数据中景小的Doukie值LASTANALYZED最新一次解析的时间数LONGHIGHVALE数据中最大的LongiLONG.LOWVALUE数据中曼小的Long值NUMDSTINCTS不同记

5、录的数量#page#数据湖Iceberg核心原理网易易数Metastore APIHDFSMetastoremamanLadd partitionadd data file#page#数据湖Iceberg核心原理网易易数Iceberg读写APIS1manifestsmanifestsmanifestmanifestmanifestdatafilesdatafilesdatafiles#page#数据湖Iceberg核心原理网易易数口新partition模式-避免了查询时n次调用namenode的list方法,降低namenode压力,提升查询性能口新metadata模式-文件级别列统计信息可以

6、用来根据where字段进行文件过滤,很多场景下可以大大减少扫描文件数,提升查询性能口新API模式-存储批流一体流式写入-增量拉取(基于Iceberg统一存储模式可以同时满足业务批量读取以及增量订阅需求)支持批流同时读写同一张表,统一表schema,任务执行过程中不会出现FiileNotFoundExcepttion#page#数据湖Iceberg核心原理网易易数T+1延退降到分钟lceberg离线ETL批流一体存储统一性能提升#page#数据湖Iceberg核心原理网易易数INSERT/UPDATE/DELETE实现I(3,5)I(1,3)I(1,3)【(1.2)D(1,2)1(1,2)I(1

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大数据技术沙龙会议报告:网易数据湖调研与实践-范欣欣.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠