当前位置:首页 > 报告详情

Greenplum Database 的分布式查询优化-内核 + 分布式数据库(29页).pdf

上传人: 云闲 编号:87353 2021-01-01 29页 2.67MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
Greenplum Database是一个基于Postgres的分布式数据库,采用MPP(Massively Parallel Processing)架构,适用于处理大量数据。它的架构由多个Postgres实例(segment)组成,其中包括一个Master节点和多个数据节点。这些节点之间采用Share Nothing架构,即它们之间没有数据共享。 Greenplum的分布式查询优化主要涉及以下几个关键点: 1. 分布式查询计划:Greenplum支持hash、random和replicated等数据分片策略,通过Locus和Motion实现分布式查询计划。 2. 查询执行器:Greenplum的查询执行器包括Slice、Gang和Dispatch等,它们可以协同工作,正确处理进程间的数据通信。 3. 查询优化:Greenplum在Master上生成单机查询计划,然后下发到各个segment执行。复杂查询(如join和聚合)可以通过优化来提高执行效率。 4. Motion和Join path:Greenplum通过Motion和Join path处理分布式关系代数,以实现局部信息完备,避免跨segment的连接。 5. Locus推理:Greenplum引入locus的概念,用于描述数据分布。它可以根据分布策略、表达式和子查询等因素推理出locus的类型。 6. 分布式查询代价模型:Greenplum对分布式查询的代价模型进行了优化,以适应MPP环境。 总之,Greenplum Database通过引入MPP架构、分布式查询计划、查询执行器和优化技术,实现了对大规模数据的处理和查询优化。
"Greenplum如何实现分布式查询优化?" "MPP架构在Greenplum中的作用和优势是什么?" "Greenplum如何处理复杂查询的分布式执行?"
客服
商务合作
小程序
服务号
折叠