《专场17.5-网易湖仓一体系统Arctic设计与实践-周劲松.pdf》由会员分享,可在线阅读,更多相关《专场17.5-网易湖仓一体系统Arctic设计与实践-周劲松.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、网易湖仓一体系统Arctic 的设计与实践周劲松-网易-平台开发专家网易数据开发现状与痛点1基于 Iceberg 的湖仓一体系统Arctic2案例与成果3未来规划4目录网易数据开发现状与痛点T+1 离线数据生产hivespark/hive原始数据数据源数据集市明细数据轻度汇聚sparkspark/hivespark/hiveimpala初步引入实时化Flink分钟/秒级HiveHive清洗聚合Kudu消息队列FlinkCDC数据集市小时/天级近 N 天数据全部数据Hivesparkspark数据源LOGspark/impalaspark/impala主键聚合清洗聚合更加复杂的实时化Flink分
2、钟/秒级KuduFlinkCDC数据集市小时/天级近 N 天数据数据源LOGspark/impalaspark/impalaHiveHiveHiveHiveHiveHiveHiveHivesparkspark清洗/打宽/聚合HBASEspark全部数据清洗/打宽/聚合流批分割的 Lambda 架构离线应用层sparkimpalaspark数据源实时应用层存储层(消息队列+kv)KV消息队列服务层(实时数仓)impalaflink数据源应用层:流批合并视图sparkflinkflinkKVKudu服务层 Hive存储层 Hive数据孤岛(Kudu 等)独立采购和部署冗余存储浪费成本难以数据复用和
3、互通研发体系割裂研发人效低研发规范不通用应用层视图合并复杂指标和语义二义性基于 Apache Iceberg 的湖仓一体系统ArcticArctic 简介Arctic 是一个开放式架构下的湖仓管理系统,在开放的数据湖格式之上,Arctic 提供更多面向流和更新场景的优化以及一套可插拔的数据自优化机制和管理服务。Iceberg formatFeaturesSchema evolutionHidden partitioningTime travelSerialization isolationFast scan planningFormat version 1Analytic Data Table
4、sFormat version 2Row-level DeletesMixed streaming format特性更强的主键约束,流批通用Auto-Bucket 提升 OLAP 性能LogStore 提供秒级 Data pipelineHive/Iceberg 格式兼容事务冲突解决机制Self-optimizing特性自动、异步与透明资源隔离与共享灵活可扩展的部署方式Minor optimizing目标解决小文件问题提升读取性能输入Segment filesEq-delete files输出Fragment filesPos-delete files频率10分钟级Major/Full opt
5、imizing目标减小数据冗余全局文件整理输入All files输出Fragment files频率小时/天级别BenchmarkBenchmark案例与成果案例:推送营销分析推送分析报表AP 批查询left join维表 joinchangebasekv indexbasebasebase设备库主站埋点日志ods_ua设备明细表圈选明细表曝光明细表点击明细表分拆算法埋点日志baseods_select_userbase清洗ods_devicebase清洗案例:推送营销分析实时生产left join维表 joinbase推送归因表营销分析特征加工样本生产ABTestschangebasekv indexbasebasebase设备库主站埋点日志ods_ua设备明细表圈选明细表曝光明细表点击明细表分拆算法埋点日志baseods_select_userbase清洗ods_devicebase清洗批量分析切换到实时生产,生产流程复用优化报表响应时间 10 x-100 x未来规划未来规划更强的管理能力数据湖权限管理更多的监控项、热表与慢查询多数据中心、多云的管理更强的 OLAP 性能支持 Sort key支持 Aggregate key支持 二级索引联系我们GitHub:https:/