当前位置:首页 > 报告详情

Blaze:SparkSQL Native算子优化在快手的设计与实践(1).pdf

上传人: 2*** 编号:121858 2023-03-29 26页 6.10MB

报告标签

SparkSQL Native 数据湖技术
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
快手正在开发一款名为Blaze的Apache Spark加速器,利用本地的向量化执行来提升查询处理的效率。Blaze结合了Apache Arrow-DataFusion库的威力与Spark分布式计算框架的规模。它已经实现了与UDF的兼容性,并优化了内存管理,更有效地实现了算子。Blaze已经通过了所有tpc-ds查询,并且对于某些查询,性能提升了10倍,平均提升了2倍。目前,它已经在线部署,并为CPU密集型作业带来了平均2倍的性能提升。未来的工作包括提高数据类型和算子的覆盖范围,支持大规模在线使用,提供抽象接口以支持更多引擎,并贡献给开源社区。
"Blaze如何优化SparkSQL性能?" "Blaze与DataFusion有何关系?" "Blaze目前的支持的运算符有哪些?"
客服
商务合作
小程序
服务号
折叠