2024数据湖峰会PPT-梁溪-终稿.pdf

编号:157215 PDF 23页 3.21MB 下载积分:VIP专享
下载报告请您先登录!

2024数据湖峰会PPT-梁溪-终稿.pdf

1、DataFunSummitDataFunSummit#20242024实时湖仓在视频号场景的应用实践实时湖仓在视频号场景的应用实践演讲人:梁溪微信视频号高级数据工程师 梁溪实时湖仓Oteam成员目前负责视频号湖仓架构设计和开发迭代应用实践应用实践未来展望未来展望目录目录 CONTENTCONTENT背景介绍背景介绍项目总结项目总结DataFunSummitDataFunSummit#20242024背景介绍背景介绍业务概况s 数据规模数据规模 单log峰值TPS可达240W/s 单日记录数达千亿级,存储量超4PB 作者数量、视频数量、视频曝光次数,均呈爆发式增长数据流转概况ss LambdaL

2、ambda系统特性系统特性实时采用流计算,延迟低离线使用批计算,稳定性高 LambdaLambda架构问题架构问题两套链路,运维成本高离线产出时延高,实时出错率高离线/实时数据不一致离线与实时链路相互独立架构概况方案调研s优点:实时性高、一套逻辑缺点:较难支持大规模数据集及对应的回溯 方案一:方案一:KappaKappa架构架构 基于基于MQMQ 方案二:方案二:KappaKappa变体变体 基于基于OLAPOLAP引擎引擎优点:实时性高、一套逻辑,支持查询大数据集缺点:成本非常高,较难支持大规模数据集及对应的回溯关键问题:关键问题:既要求实时性,实时性,又要求控制成本,控制成本,还要求稳定、

3、可靠稳定、可靠方案调研s 数据湖技术对比数据湖技术对比特性特性Hive/Hive/THiveTHiveIcebergIcebergHudiHudiDeltaLakeDeltaLake运维运维投入力度大力度大无无公司内使用大规模大规模无无业内使用大规模大规模国内小规模THive互通性支持支持不支持不支持能力写入延迟1H+1min1min1min文件合并手动自动自动手动生命周期管理自动自动自动自动Schema演化不支持支持支持支持Update/Delete分区级删除支持支持支持ACID事务/时间旅行不支持支持支持支持经对比,最终选择了IcebergIcebergDataFunSummitDataF

4、unSummit#20242024应用实践应用实践湖上建仓s 数据入库数据入库iceberg实时表分钟级落地 数据计算数据计算简化链路/统一代码,节省人力/资源成本iceberg流转批模式生产,调度时延大幅降低tube/kafka/pulsar下csv/json/pb格式入库 数据存储数据存储统一存储为iceberg,省去kafka类MQ介质湖表可用于异常恢复,补录时延大幅降低 查询加速查询加速基于StarRocks的RoutineLoad实时导入ice数据借助SR的物化视图等加速数据查询入库及下游读取优化s 数据入库问题数据入库问题小文件问题 下游读取慢query触发扫描的split过多导致

5、查询慢实时数据落地依赖flink CP机制 解决思路解决思路加大flink CP间隔优化前平均耗时422s,优化后平均耗时64s64s 解决方案解决方案引入自动优化(AO)服务合理配置targetSizeInbytes、利用索引重分布小文件稳定在数值范围内,且文件分布更合理调整分布、配置filter优化开发链路s 开发链路痛点开发链路痛点 实时join场景复杂多变,开发门槛高,导致开发效率低异步io/广播等重度依赖外部存储,存在不稳定隐患高阶API封装的泛化能力较弱,时间成本高 解决思路解决思路降低开发门槛SQL化作业Iceberg watermark checker将流转批同源关联优化开发链

6、路s协同oteam共建流转批checker,平台组件化iceberg指标表+维表作SparkSQL开发,节省人力成本端到端时延15min(2min依赖+10min调度+3min计算)解决方案解决方案脱离外部存储依赖,如redis/kafka/pulsar等Pass服务优化基础BI表s 数据计算痛点数据计算痛点 离线链路层级多,计算冗长产出时延大,下游使用无法保障指标繁多,资源消耗大 浏览侧核心天级基础宽表问题浏览侧核心天级基础宽表问题上游依赖个数近近2020个个数百个字段,维度庞大,指标繁多维度庞大,指标繁多原始数

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2024数据湖峰会PPT-梁溪-终稿.pdf)为本站 (stock) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠