《专场10.4-云原生数据库 PieCloudDB eMPP架构设计与实现-郭罡(脱敏版).pdf》由会员分享,可在线阅读,更多相关《专场10.4-云原生数据库 PieCloudDB eMPP架构设计与实现-郭罡(脱敏版).pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、云原数据库 PieCloudDB eMPP架构设计与实现郭罡 拓数派CTO关于拓数派(OpenPie)成于2021年,以“Data Computing for New Discoveries”数据计算,只为新发现为使命。现Pre-A轮融资,已完成数亿元融资。核团队来于各名校,有丰富的数据库(Greenplum,DB2,ClickHouse等)研发和商务经验。核产品 PieCloudDB 1.0版本已于 2022.10.24 发布。产品已经在些融、医疗等业开始使。关于我 毕业于中国科技学,AI相关专业 毕业 1 年后到现在直从事底层基础软件开发,10多年开发经验 领域涉及到:代码级/算法级/系统
2、级性能优化 Linux/Unix内核和系统开发、虚拟化(芯KVM持实现)和云计算架构、速络开发(内核和应层如DPDK)分布式系统(SQL/NoSQL/存储)最近 7+年直从事开源分布式数据库开发一个eMPP 云原生分布式SQL数据库一个云原生实时大数据平台基座愿景:安全可靠 使用简单 功能齐全 性能极致传统分布式MPPMPP架构痛点缺乏弹性业务使用不灵活成本高昂集群固定,资源利用率低木桶效应扩缩容难数据孤岛元数据和用户数据跨集群访问困难运维成本运维和DBA我们需要一个云原生数据库云解决了什么?借助于云上分布式存储,解耦存储借助于虚拟化技术和之上的IaaS,解耦计算池化资源,按需使用基础软件尤其
3、是数据库软件上云已是大势所趋用户专注于使用,其他事情交给IaaS/SaaS厂商上云 云原生计算&存储弹性智能化云原生平台多租户隔离存储资源和计算资源:分离和隔离资源伸缩快速简单计算、存储:按需付费智能管理,复杂交给*aaS厂商PieCloudDBPieCloudDB重要特点eMPPACID;完备的事务支持(隔离级别:RR,RC)完善的SQL标准支持安全可靠友好的用户接口(websql,ODBC/JDBC driver等).云原生 云中立弹性计算资源(横向纵向)、极速调整多集群是另外一个弹性的维度共享用户数据(如按需付费的对象存储)共享元数据MPP架构:分布式,海量数据并行处理e代表弹性(ela
4、stic)完善的Postgres生态为什么选择Postgres?关于Postgres 公司中,开源协议友好,国际流程准的先进开源数据库 Postgres对存储扩展,插件扩展持友好 天然带定的多模持(原或者插件)采度和流度持续上升 优秀的态 我们的选择 很多功能不也没必要重新造轮 和流的产品和才起成 团队深度理解Postgres内核代码,在社区参与诸多贡献PieCloudDB 架构元数据管理基于 MVCC 的事务隔离级别使用 FoundationDB Key 的自然排序实现索引将元组以 key-value 的形式存储到 FoundationDB元数据管理 临时状态存储(如lock等)也放在Fou
5、ndationDB 依赖于FoundationDB的KV特性、可串化事务、watcher机制 多个集群(虚拟数仓)可以共享份元数据 FoundationDB可设计、备份恢复保证元数据的可靠性和可性元数据管理缓存 的:减轻FoundationDB集群负担 加速查询优化(络延迟远于内存延迟)以Postgres原的元数据缓存概念为基础,优化重构实现适于多集群架构户数据存储引擎 PAX(列混存)配以效压缩 Block件为个存储(MVCC)单位 辅助信息存储于计算优化 设计考虑:效和精准的统计信息收集 存储和计算成本 各种计算优化 SIMD,Cache Line Data Skipping(本地查询和远
6、程读取)预聚集.存储中存储中 公有云,私有云,混合云 对象存储(数据共享,存算分离)按需付费 也持HDFS,NAS户数据可靠安全 户数据可靠实时加解密(TDE)分布式对象存储多副本多可区保证数据安全:“份”数据,避免数据不致 将来Time Travel查询“回收站”数据户数据查询效率优化 远程访问数据要考虑的点:性能和成本 如何解决?数据和/或辅助信息缓存,同时致性Hash减少数据移动 读取优化(如异步并等)计算优化(各种功能特性持续优化中)很多复杂OLAP查询如果不是IO瓶颈,不会受制于它.计算引擎之优化器PieCloudDB Optimizer 是个