《专场17.1-B站基于Iceberg湖仓一体优化实践及智能化管理平台的助力-向阿鲲.pdf》由会员分享,可在线阅读,更多相关《专场17.1-B站基于Iceberg湖仓一体优化实践及智能化管理平台的助力-向阿鲲.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、B 站站 基于基于 Iceberg 湖仓一体优化实践及湖仓一体优化实践及智能化管理平台的助力智能化管理平台的助力向阿鲲/BILIBILI/OLAP 平台资深开发工程师未来规划未来规划智能化管理平台智能化管理平台 Magnus基于基于 Iceberg 湖仓一体内核优化湖仓一体内核优化湖仓一体项目在湖仓一体项目在 B 站站 OLAP 平台的落地实践平台的落地实践湖仓一体项目在湖仓一体项目在 B 站站 OLAP 平台的落地实践平台的落地实践湖仓一体项目在湖仓一体项目在 B 站站 OLAP 平台的落地实践平台的落地实践湖仓一体项目背景(湖仓一体项目背景(早期数据服务架构早期数据服务架构)数据出仓繁琐,
2、数据一致性难保障 数据处理复杂,需要定制化 需要为不同的存储引擎优化计算痛点:HadoopETL湖仓一体项目在湖仓一体项目在 B 站站 OLAP 平台的落地实践平台的落地实践湖仓一体项目架构湖仓一体项目架构 数据不用出仓,避免了数据重复存储 大数据可以添加索引,支持毫秒级/秒级查询能力,满足基本取数场景 数据处理更加高效,从数据处理到取数的过程缩短 支持数据增量 update,支持事务,能对接更多业务场景Hadoop 生态上引入 Iceberg 组建在拥有数据湖灵活性的同时、打造一套高性能的数仓体验在拥有数据湖灵活性的同时、打造一套高性能的数仓体验湖仓一体项目在湖仓一体项目在 B 站站 OLA
3、P 平台的落地实践平台的落地实践业务场景落地业务场景落地 取数服务取数服务运营后台、数据产品(万华镜、观星台、Boss 看板等)、OLAP 多维分析等 ABTestABTest 实验平台实验平台 BIBI 报表报表 标签人群圈选标签人群圈选 日志检索日志检索湖仓一体项目在湖仓一体项目在 B 站站 OLAP 平台的落地实践平台的落地实践查询统计详情查询统计详情单日查询量:22.2wP90 耗时:1.49sP95 耗时:2.5sP99 耗时:5.6sIceberg 数据总量:2PB+峰值 QPS:300q/s(单集群)数据产品(万华镜)查询平均耗时:200ms基于基于 Iceberg 湖仓一体的内
4、核优化湖仓一体的内核优化基于基于 Iceberg 湖仓一体的内核优化湖仓一体的内核优化数据组织排序数据组织排序id=100id=100Iceberg 提供了文件级别元数据提供了文件级别元数据怎么高效利用呢?怎么高效利用呢?排序后 文件根据字段 id 有很好的聚集性基于基于 Iceberg 湖仓一体的内核优化湖仓一体的内核优化数据组织排序数据组织排序 线性排序线性排序基于一个或多个字段进行分区内线性全排序典型应用场景:典型应用场景:根据 up_id/avid 进行点查/范围查询基于基于 Iceberg 湖仓一体的内核优化湖仓一体的内核优化数据组织排序数据组织排序 Z Z-OrderOrder 排
5、序排序原理原理:多个待排序字段,分别按照大小进行二进制编码,每组字段根据编码后的值按 bit 位交错生成一个 Z-Value 值,使得生成的 Z-Value 沿着特定空间轨迹是有序的每个文件根据 X、Y 都有比较好的聚集性x=1y=5基于基于 Iceberg 湖仓一体的内核优化湖仓一体的内核优化数据组织排序数据组织排序 Z Z-OrderOrder 排序排序基于 24 个字段进行分区内 Z-Order 空间排序典型应用场景:典型应用场景:根据 up_id、avid、time 等多个字段进行点查/范围查询基于基于 Iceberg 湖仓一体的内核优化湖仓一体的内核优化二级索引支持二级索引支持 Bl
6、oomfilterBloomfilter 索引索引很小的存储开销,支持任意普通类型字段的点查典型应用场景典型应用场景:存在较多不同字段过滤场景,适用于相对较高基数的字段基于基于 Iceberg 湖仓一体的内核优化湖仓一体的内核优化二级索引支持二级索引支持 BitmapBitmap 索引索引支持多个字段的组合查询,并且支持范围查询典型应用场景:典型应用场景:单个字段 或 多个字段组合的 点查或范围查询,字段基数不宜过高基于基于 Iceberg 湖仓一体的内核优化湖仓一体的内核优化二级索引支持二级索引支持 BloomRFBloomRF 索引索引较小的存储开销