当前位置:首页 > 报告详情

Datafun-SmartNews-戢清雨.pdf

上传人: s**** 编号:157201 2024-03-16 31页 3.37MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了SmartNews在使用Flink实时更新数据湖(基于Iceberg v2)的实践。SmartNews面临的主要挑战是需要按广告主键去重、更新点击/转化时间戳,并要求实时/小时更新。在基于Iceberg v1的实践基础上,他们遇到了实时更新小文件问题,导致占用过多Infra资源和计算资源浪费。为了解决这些问题,SmartNews采用了基于Flink的Iceberg v2解决方案。通过对比实验,他们发现,Flink的实时写入方案减少了50%的Infra成本,避免了重复计算和数据文件,实效性也从小时级提高到了分钟级。此外,他们还提出了Dynamic Shuffle Operator来进一步优化实时更新小文件问题。
"Flink如何优化实时数据湖更新?" "Iceberg v2如何实现分钟级实效性?" "如何解决实时更新中的小文件问题?"
客服
商务合作
小程序
服务号
折叠