当前位置:首页 > 报告详情

7-3Impala在网易大数据中的使用和优化实践.pdf

上传人: li 编号:29770 2021-02-07 33页 4.53MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了网易大数据中Impala的使用和优化实践。Impala是一种分布式并行查询引擎,具有去中心化的MPP并行架构和优秀的查询性能。它在数据处理中的角色包括作为通用查询引擎、数据仓库的实时分析等。Impala的优势包括支持去中心化的MPP架构、优秀的查询性能、基于代价执行优化、Catalog缓存等。 网易大数据对Impala进行了多项增强和优化,包括:1) 管理服务器实现,使用MySQL保存集群信息,提供持久化集群配置和统计信息,以及持久化SQL详细信息;2) 元数据同步增强,实现元数据自动同步、元数据过滤和元数据白名单等;3) 基于zk的服务高可用,引入zookeeper作为业务访问代理,实现coordinator宕机不影响业务访问;4) 支持创建和查询iceberg表,以及支持基于alluxio配置缓存和对接ElasticSearch查询等。 Impala在网易内部业务和外部商业化服务中得到了广泛应用,已部署20+个Impala集群,最大集群节点数达到60+。在云音乐业务中,Impala+Kudu构建了实时数仓,实现了分钟级延迟的ABTest实时化改造。
"Impala如何优化大数据查询性能?" "Impala在实时数仓建设中的应用与实践" "如何利用Impala进行自助分析和BI报表制作?"
客服
商务合作
小程序
服务号
折叠