6-2 字节数据湖平台在实时数仓中的实践.pdf

编号:102392 PDF 33页 3.86MB 下载积分:VIP专享
下载报告请您先登录!

6-2 字节数据湖平台在实时数仓中的实践.pdf

1、字节数据湖平台在实时数仓中的实践张友军 字节跳动数据平台数据程师01实时数仓场景介绍02数据湖在实时数仓场景初探03数据湖在实时数仓典型场景实践04未来规划录 CONTENT实时数仓场景介绍01实时数仓场景介绍实时数仓场景介绍实时数仓场景初探02数据湖在实时数仓场景初探场景探索是否可以解决实际痛点问题?是否可以稳定持线上业务?数据湖优势相对离线数仓:时效性+效更新相对实时数仓:份存储批流两,效数据分析数据湖在实时数仓场景初探视频元数据时效性:天级=时级 场景诉求:提前就绪时间,峰期释放计算资源场景特点:数据量下游核链路多数据湖在实时数仓场景初探视频元数据时效性:天级=时级 线上效果:数据就绪时

2、间提前 3.5 时,峰期资源消耗减少 40%左右数据湖在实时数仓场景初探近实时数据校验实效性:时级=分钟级场景描述:实时任务上线前的数据校验场景,于保障线上数据质量场景诉求:近实时全量数据可可测线上效果:从根本上帮助业务侧改善研发效率及数据质量数据湖在实时数仓场景初探近实时数据校验暴露问题:易性较差+运维成本脚本提交SQL 提交数据湖在实时数仓场景初探近实时数据校验解决案纯 SQL 化基于 Catalog 简化参数配置完善户册典型场景实践03数据湖在实时数仓典型场景实践实时多维汇总场景描述:轻度汇总数据实时湖,下游读时按需重度聚合场景诉求向内部分析向数据产品数据湖在实时数仓典型场景实践实时多维

3、汇总暴露问题写稳定性差:任务占资源、任务频繁重启、Compaction 法及时执从影响查询更新性能差:任务反压严重并发难提升:并发度提升对 Hudi Metastore 影响较查询性能差:10 分钟延迟,甚查询失败数据湖在实时数仓典型场景实践实时多维汇总写稳定性治理Async Compaction+Compaction Service V1数据湖在实时数仓典型场景实践实时多维汇总效更新索引Bucket Index数据量级提升:TB 级=百 TB 级基于哈希值快速定位基于哈希分布加速查询数据湖在实时数仓典型场景实践实时多维汇总效更新索引Bucket Index数据湖在实时数仓典型场景实践实时多维

4、汇总请求模型优化 Embedded Timeline ServerRPS 量级提升:万=近千万WriteTask 轮询问 Timeline 统从 JobManager 缓存拉取数据湖在实时数仓典型场景实践实时多维汇总查询性能专项优化1.MergeOnRead 列裁剪2.并读优化3.Combine Engine4.Parquet Log Format5.读件系统尾问题优化数据湖在实时数仓典型场景实践实时多维汇总查询性能专项优化1.MergeOnRead 列裁剪2.并读优化3.Combine Engine4.Parquet Log Format5.读件系统尾问题优化数据湖在实时数仓典型场景实践实时

5、多维汇总查询性能专项优化1.MergeOnRead 列裁剪2.并读优化3.Combine Engine4.Parquet Log Format5.读件系统尾问题优化数据湖在实时数仓典型场景实践实时数据分析场景描述:明细数据直接湖,运营、DA主分析或者构建可视化看板场景诉求:志型数据效湖,实时数据关联数据湖在实时数仓典型场景实践实时数据分析志型数据效湖 NonIndex数据湖在实时数仓典型场景实践实时数据关联数据湖在实时数仓典型场景实践实时数据关联实时数据关联写流程数据湖在实时数仓典型场景实践实时数据关联实时数据关联读流程未来规划04未来规划弹性可扩展索引系统Extensible Hash Index:应对业务数据快速增未来规划适应表优化服务Table Management Service:完全托管 Compaction/Clean/Clustering未来规划元数据服务增强Schema Evolution:持 Hudi schema 的增加、删除和修改Concurrency Control:持流批并发写未来规划批流体Unified SQL:批流体 SQL,由 Flink/Spark/Presto 多引擎协同计算Unified Storage:基于 HUDI 的实时数据湖存储Unified Catalog:统元数据常感谢您的观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(6-2 字节数据湖平台在实时数仓中的实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
小程序
服务号
折叠