当前位置:首页 > 报告详情

张明磊-Iceberg行级更新在B站的创新与实践 .pdf

上传人: Fl****zo 编号:624553 2025-03-31 31页 2.35MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了B站资深开发工程师张明磊在DataFunSummit 2025上分享的关于Iceberg行级更新在B站的创新与实践。关键点如下: 1. 技术演进:从2021年Q2的Z-order支持、2021年Q3的取数服务,到2024年Q3的行级更新等,B站逐步实现了数据处理技术的发展。 2. 业务背景:行级更新主要用于处理网页打开时产生的曝光和点击数据,以及付费转化数据。更新Label场景产出任务,涉及Flink双流Join、Spark离线任务等。 3. 原生方案问题: Copy on Write和Merge on Read方案存在写放大问题和影响主表读写问题。 4. 新方案设计与思考:提出一种新型行级更新技术,支持Branch级别的Schema,优化了ColumnFile的设计,并通过Dynamic Filtering by Writer降低计算开销。 5. 业务落地与实践效果:应用新方案后,更新label作业时效性提升了33%,进一步缩短了用户作业的延时。 6. 未来规划:数仓宽表治理、日志数据入湖、公司级埋点入湖等。 综上,B站通过实践Iceberg行级更新技术,有效解决了大数据处理中的写放大和资源受限问题,提升了数据处理的时效性。
"Iceberg行级更新如何提升数据处理效率?" "ColumnFile设计如何优化数据更新与读取?" "如何通过Runtime Filtering提高数据处理时效性?"
客服
商务合作
小程序
服务号
折叠