《2020年终大会-大数据应用:9-4.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-大数据应用:9-4.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、Impala 3.4Impala 3.4在网易的优化实践在网易的优化实践 汪胜汪胜- -大数据开发工程师大数据开发工程师 目录1:ImpalaImpala定位及使用定位及使用 目录2:ImpalaImpala对接对接IcebergIceberg 目录3:ImpalaImpala管理系统管理系统 目录4:未来更多工作未来更多工作 分享大纲 ImpalaImpala定位及使用定位及使用 什么是什么是ImpalaImpala? ClouderaCloudera开源贡献至开源贡献至A Apachepache的的OLAPOLAP引擎引擎 提供高并发和低延迟的交互式提供高并发和低延迟的交互式SQLSQL查
2、询查询 可以查询可以查询HDFS/HBase/KuduHDFS/HBase/Kudu中的数据中的数据 ImpalaImpala(黑斑羚)(黑斑羚) ImpalaImpala优势优势 去中心化的去中心化的MPPMPP架构架构 完全兼容完全兼容HiveHive元数据格式元数据格式 ApacheApache顶级项目,社区活跃度高顶级项目,社区活跃度高 支持多种数据格式,例如支持多种数据格式,例如ParquetParquet、OrcOrc、AvroAvro等等 高效的查询性能,支持高效的查询性能,支持codegencodegen、llvmllvm、runtime filterruntime filte
3、r等等 ImpaladImpalad分为两种角色,每个分为两种角色,每个ImpaladImpalad可以充当任意角色可以充当任意角色 Coordinator(协调者):响应客户端请求,SQL解析 Executor(执行者):数据扫描、聚合运算 ImpaladImpalad内部分为两个模块内部分为两个模块 Frontend:执行SQL解析,Java代码编写 Backend:进行聚合运算,C+代码编写 ImpalaImpala架构简介架构简介 Your Logo 发布发布- -订阅服务订阅服务 同步节点状态信息 同步元数据信息 同步资源队列信息 查询节点查询节点 响应客户端请求 SQL解析 聚合运算 元数据服务元数据服务 从metastore缓存 元数据信息 支持在相同的查询块中存在多个distinct算子 支持优雅的(不影响正在执行的查询)关闭impala进程 支持ORC文件格式 支持DAT