当前位置:首页 > 报告详情

2024数据湖峰会PPT-梁溪-终稿.pdf

上传人: s**** 编号:157215 2024-03-16 23页 3.21MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了微信视频号高级数据工程师梁溪在DataFunSummit 2024上的演讲,主要讨论了实时湖仓在视频号场景的应用实践。 关键点如下: 1. 业务概况:视频号数据规模庞大,单log峰值TPS可达240W/s,单日记录数达千亿级,存储量超4PB。 2. 架构概况:文章对比了Lambda架构、Kappa架构和Kappa变体,最终选择了Iceberg作为数据湖技术。 3. 应用实践:通过引入自动优化(AO)服务和合理配置参数,解决了小文件问题和查询加速问题。同时,通过SQL化作业和Iceberg watermark checker,优化了实时join场景和开发链路。 4. 项目总结:基于Iceberg的数据湖方案,实现了数据计算、存储和接入的优化,节省了大量的计算资源和存储成本。 5. 未来展望:底座将全面切换至Iceberg,并共建完善Iceberg周边能力。 综上,梁溪在演讲中分享了微信视频号在实时湖仓应用实践方面的经验,以及采用Iceberg数据湖技术所带来的优化和节省成本的效果。
"实时湖仓如何提升视频号数据处理效率?" "如何通过Iceberg技术优化数据湖存储与查询?" 如何实现实时性与成本控制的平衡?"
客服
商务合作
小程序
服务号
折叠