1、网易易数打造数据增量计算新架构-网易数据湖调研&实践C范欣欣网易大数据技术专家HBase&IcebergContributor,HBase原理与实践作者#page#网易易数数据仓库平台建设的痛点01数仓平台建设的痛点数据湖Iceberg核心原理02数据湖Iceberg核心原理网易Iceberg实践03网易Iceberg实践SMiL号未来规划04未来规划#page#网新牌D网易易数A1数仓平台建设的痛点章节PARTCr#page#数仓平台建设痛点网易易数业务日益增长的小时/分钟级别分析延退需求和平台当前T+1天级别延退之间的矛盾!#page#数仓平台建设痛点网易易数Lambda技术架构d-hoc
2、宣询HOR3SoarkafkaSkafkaSkafkaApache FlnkDWDDWSODSADDS#page#数仓平台建设痛点网易易数Lambda技术架构两套计算路径指标口径不统一HDFS&Kafka不支持upsert,延退不满足Kafka存储&OLAP能力不足#page#数仓平台建设痛点网易易数增量计算架构增量处理实时处理离线处理SminIhour5minlatencyeuesol、#page#数据湖Iceberg核心原理网易易数partitionIcebergMetastoredate=20200616/Scalospark.read.format(iceberg).locd(“hiv
3、eicebergtbl3.files”).showl-hour=18/11.file_pathlfile_forwatlpartitionlrecord_countlfile_sizeBytesI-hour=19/upper_boundsikey_metadatalsplit_offsetsl1l-click11-.11131633Ihdfs:/ntsdbo.jd.PARQUETIl-viewnu114!3163221Ihdfs:/ntsdbo.jd.PARQUETIl-hour=20nul1l【4!,2-.!11-.!#page#数据湖Iceberg核心原理网易易数metadataMetas
4、toreIceberg解释字段CSID列统计编号AG.COLLEN数据的平均长度MAX.COLLEN数据的最大长度COLUMNNAME列的名字COLUMN_TYPE列的类型DB_NAME数据库的名称BO.DECIMAHOHVAUE数据中最大的Docmal恒BIO.DECIMAL_LOWVALUE数据中最小的Decmnal值DOUBLEHGHVALUE酸据中最大的Doukle值DOUBLE.LOWVALUE数据中景小的Doukie值LASTANALYZED最新一次解析的时间数LONGHIGHVALE数据中最大的LongiLONG.LOWVALUE数据中曼小的Long值NUMDSTINCTS不同记
5、录的数量#page#数据湖Iceberg核心原理网易易数Metastore APIHDFSMetastoremamanLadd partitionadd data file#page#数据湖Iceberg核心原理网易易数Iceberg读写APIS1manifestsmanifestsmanifestmanifestmanifestdatafilesdatafilesdatafiles#page#数据湖Iceberg核心原理网易易数口新partition模式-避免了查询时n次调用namenode的list方法,降低namenode压力,提升查询性能口新metadata模式-文件级别列统计信息可以
6、用来根据where字段进行文件过滤,很多场景下可以大大减少扫描文件数,提升查询性能口新API模式-存储批流一体流式写入-增量拉取(基于Iceberg统一存储模式可以同时满足业务批量读取以及增量订阅需求)支持批流同时读写同一张表,统一表schema,任务执行过程中不会出现FiileNotFoundExcepttion#page#数据湖Iceberg核心原理网易易数T+1延退降到分钟lceberg离线ETL批流一体存储统一性能提升#page#数据湖Iceberg核心原理网易易数INSERT/UPDATE/DELETE实现I(3,5)I(1,3)I(1,3)【(1.2)D(1,2)1(1,2)I(1