《Green plum 6.0及路线规划-分布式数据库专场(43页).pdf》由会员分享,可在线阅读,更多相关《Green plum 6.0及路线规划-分布式数据库专场(43页).pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、陆公瑜2019年11月29日日程日程 Greenplum简介 Greenplum 6.0 Greenplum未来规划OLTP的开源答案的开源答案和和OLAP MPP无共享静态拓扑无共享静态拓扑数据分布:并行化处理的根基数据分布:并行化处理的根基最重要的策略和目标是均匀分布数据到各个数据节点并行执行计划并行执行计划Greenplum可以跑在不同的环境可以跑在不同的环境数据类型可以是多样的数据类型可以是多样的数据数据类型类型结构化数据非结构化数据地理数据实时数据自然语言数据时间序列数据事件数据网络数据关联数据数据可以放在不同地方数据可以放在不同地方?Greenplum集成化分析集成化分析Green
2、plum数据转换数据转换传统传统 BI机器学习机器学习深度学习深度学习图图地理信息地理信息文本文本Greenplum概况概况产品特性产品特性客户端访问和工具客户端访问和工具多级容错机制多级容错机制无共享大规模并行处理无共享大规模并行处理先进的查询优化器先进的查询优化器多态存储系统多态存储系统客户端访问客户端访问ODBC,JDBC,OLEDB,etc.核心核心MPPMPP架构架构并行数据流引擎并行数据流引擎高速软数据交换机制高速软数据交换机制MPP Scatter/Gather MPP Scatter/Gather 流处理流处理在线系统扩展在线系统扩展资源资源管理管理服务服务加载加载&数据联邦数
3、据联邦 高速数据加载高速数据加载近实时数据加载近实时数据加载任意系统数据访问任意系统数据访问数据联邦数据联邦存储存储&数据访问数据访问混合存储引擎(行存混合存储引擎(行存&列存)列存)多种压缩,多级分区表多种压缩,多级分区表索引(索引(B B树,位图,树,位图,GiSTGiST)安全性安全性语言支持语言支持标准标准SQLSQL支持,支持,SQL 2003 OLAPSQL 2003 OLAP扩展扩展扩展编程语言扩展编程语言GreenplumRExtension&Hook第三方工具第三方工具BI BI 工具工具,ETL,ETL 工具工具文本分析,文本分析,机器学习机器学习等等管理工具管理工具GP
4、Command CenterGreenplum在最新的在最新的Gartner报告名列前茅报告名列前茅 传统数仓领域全球排名第三 实时分析领域全球并列第四 前十中唯一的开源产品Postgres升级升级6个个Postgres大版本升级大版本升级v8.4 -2314 commitsv9.0 -1859 commitsv9.1 -2035 commitsv9.2 -1945 commitsv9.3 -1603 commitsv9.4 -1964 commitsGP6 -4705 commits总共16425 commits,超过100万行代码更新OLTP性能大幅提升性能大幅提升Greenplum 6中
5、的OLTP优化锁的优化(如tmLock)两阶段事物优化(如特殊情况退化为一阶段)更精细化的资源组管理升级内核带来的优化(如fast path lock,lwlock,cache有效性)结果:基准测试性能提升高达70+倍GP6中Update的TPS 24,448GP6中Insert的TPS 46,570GP6中Select的TPS 140,000精细化资源管理精细化资源管理目标 多租户资源隔离 更好地支持混合工作负载 更好地支持高并发特征 指定每个用户组的最大CPU 指定每个用户组和每个查询的最大内存 指定每个用户组的最大并发数 利用Linux Cgroup实现磁盘配额磁盘配额 多租户的场景下,
6、磁盘配额是SLA的一部分 支持Schema和用户级别的磁盘配额创建和管理 当磁盘使用量达到限额时,阻止用户继续占用磁盘空间 基于Greenplum Extension框架构建 最小化IO性能的影响 近似实时的响应更快的集群扩容更快的集群扩容10倍以上性能提升倍以上性能提升 新的一致性哈希算法 不需要重新分布集群所有数据,仅移动少量数据 不需要重新启动集群预写日志预写日志(Write-Ahead Logging)降低网络开销 适应高负载CPU 重新平衡更快 兼容Postgres复制表复制表explain select count(*)from table_fact f inner join ta