当前位置:首页 > 报告详情

基于 Hudi Spark SQL 调度的近实时计算探索.pdf

上传人: 2*** 编号:121848 2023-03-29 30页 6.33MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了涂鸦智能在基于Hudi+Spark SQL的近实时计算的实践和探索。首先,介绍了近实时计算的定义,以及Spark SQL如何对Hudi表进行增量读和快照读。接着,详细阐述了涂鸦智能如何将Hudi、Spark SQL与调度系统结合,实现近实时计算的落地实践,包括宽表建设、增量计算、以及如何处理数据不一致等问题。然后,对比了实时计算、准实时计算和离线计算的区别,讨论了在近实时计算中宽表建设的问题和挑战,以及如何解决这些问题。最后,展望了未来近实时计算的发展方向,包括二级索引更新方式、Hudi Metrics和Table Service Platform等。
"Hudi+Spark SQL如何实现近实时计算?" "涂鸦智能如何运用Hudi、Spark SQL实现近实时数据处理?" "近实时计算在数据平台中的应用挑战与解决方案是什么?"
客服
商务合作
小程序
服务号
折叠