当前位置:首页 > 报告详情

张力 Blaze:快手自研Spark向量化引擎从生产实践到社区开源.pdf

上传人: 张** 编号:178919 2024-10-25 34页 3.12MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了快手自研的向量化计算引擎Blaze,该引擎通过利用计算机硬件的并行处理能力,实现了一次性处理多个数据的计算方法,从而提高计算的速度和效率。Blaze引擎已经在公司Spark引擎上大规模应用,并且在大数据资源成本优化项目起到了重要的作用。 关键数据包括: 1. Blaze相比原生Spark 3.5执行速度提升达到220%,资源开销下降了50%以上。 2. Blaze已经覆盖近50%的例行作业,每日使用的资源占集群总量的30%。 3. 已上线的作业相比上线前资源开销下降约30%,节省资源折算收益数千万/年。 主要特点和优势: 1. 向量化计算:通过整列加载到内存中进行向量运算,适合数据量大、计算复杂度高的场景。 2. 兼容性:支持所有兼容HDFS API的存储系统,如Amazon S3等。 3. 细粒度回退:实现细粒度回退,降低回退成本。 4. 小内存场景优化:支持多级内存管理,保证优化效果。 5. JSON解析优化:通过表达式去重功能实现一次解析,多次引用的优化。 Blaze引擎已经开源,旨在集思广益,提升项目优化效果,共建共享项目成果,增加影响力,支持多Spark版本、不同文件格式、数据源等,完善周边生态。
"快手Blaze引擎如何优化Spark SQL性能?" "向量化计算在快手大数据平台中的应用案例分享" 如何影响大数据行业未来发展?"
客服
商务合作
小程序
服务号
折叠