当前位置:首页 > 报告详情

2024峰会-京东零售数据湖应用与实践.pdf

上传人: s**** 编号:157218 2024-03-16 20页 4.72MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了京东零售数据湖在应用与实践方面的迭代和优化效果、收益以及未来展望。主要内容包括: 1. 背景和痛点:当前数仓采用Lambda架构,实时数据和历史数据分别存储,导致用户需要分别对接不同系统,存在资源浪费和维护成本高的问题。 2. 迭代和优化:通过流量涉及的生产库写实时Topic、离线MR作业改为流处理的Flink作业、数据写入Hudi表等技术方案,实现数据实时性和完整性的统一,提升数据时效性,降低资源浪费,优化存储成本。 3. 效果和收益:离线数据的时效性提升,计算削峰,降低构建大宽表的资源成本,实现数据修改原子化,提高作业效率;降低存储数据由快照改为增量存储,降低存储代价,支持回看有状态的历史快照。 4. 未来展望和规划:包括容灾措施、与批任务的资源隔离、优化资源消耗、数据免疫系统建设、提升Hudi表的自管理能力等方面。 综上,京东零售数据湖在应用与实践方面通过技术迭代和优化,实现了数据实时性和完整性的统一,提升了数据时效性,降低了资源浪费和存储成本,未来将继续在容灾、资源隔离、数据免疫等方面进行规划和推进。
"如何实现数据实时性和完整性的平衡?" "如何通过技术优化降低数据仓库维护成本?" "如何提升数据处理时效并实现存储资源优化?"
客服
商务合作
小程序
服务号
折叠