1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)目录 开源 PolarDB for PostgreSQL 架构介绍.4 PolarDB 安装与配置.14 PolarDB 数据库结构.21 Foreign Data Wrappers(FDW)使用介绍.35 用户和权限管理.47 VACUUM 处理.65 缓冲区管理器.75 备份与恢复.82 共享存储原理与实践.95 云原生 HTAP.108 最佳场景实践与压测.120 开源 PolarDB for PostgreSQL 架构介绍 4 开源 PolarDB for PostgreSQL 架构介绍 一、PolarDB
2、 总体架构设计 传统数据库的部署方式,有主库、备库和 Standby,主备库之间通过流复制进行同步。节点扩展时,需要将数据全部进行复制,速度极慢。另外,主备之间复制一般使用异步复制,可能存在数据丢失。主备之间存在延迟,因此可用性较差。此外,随着副本数的增加,存储成本呈线性增加。针对以上问题,PolarDB 实现了计算存储分离架构。开源 PolarDB for PostgreSQL 架构介绍 5 在 PolarDB 架构中,共有三个节点,其中一个读写节点,两个只读节点。存储数据时,通过网络存储到后端存储池。该架构具有四个优势:第一,扩展性较好。计算能力不足时,只需简单操作即可增加计算节点。因为数
3、据存储在共享存储上,无需再做一次复制。且计算节点无状态,扩展快。而当计算资源过多时,可以将三个节点迅速缩为两个节点。第二,成本低。多个计算节点共享一份数据,存储成本显著下降。传统数据库有 N个备库,数据需要复制 N 份。而存储计算分离架构下,数据只需在共享存储上存储一份即可。第三,易用性。存储计算分离架构的存储池技术相对较成熟,保证了数据不会丢失。计算侧每一个节点都能看到完整的数据库状态,使用体验接近于单机数据库。第四,可靠性。由于共享存储具备了三副本以及秒级备份等特性,其可靠性也得到了保障。PolarDB 计算存储分离的模块栈分为四层。开源 PolarDB for PostgreSQL 架构
4、介绍 6 事务层:除了原生事务,还实现了 CSN 快照。日志层:主库将 WAL 日志写到共享存储上,备库无需再做一次流复制,从共享存储上读取日志即可。此外还实现了 lazy 回放、并行回放和 LogIndex 等核心数据结构。缓存层:实现了常驻 BufferPool,节点重启时,buffer 数据无需重新预热。另外,实现了多版本页面,解决了 fullpage 问题。存储层:实现了 Direct IO、数据预读、预扩展以及抽象了 PolarVFS 文件系统接口。PolarDB 除了实现计算存储分离架构,还实现了 HTAP 架构。PolarDB1.0 计算存储分离时,可以通过读写分离将 TP 事务
5、型查询均匀地打散到不同节点上。但该架构在处理 AP 型查询时存在一些问题,因为查询只能在计算节点上处理,无法发挥多个计算节点的能力。开源 PolarDB for PostgreSQL 架构介绍 7 因此,PolarDB 在存储计算分离架构上进一步实现了 HTAP 架构。如图中所示,在计算层实现了分布式并行计算引擎。任何一个计算节点均支持单机查询引擎,也支持分布式并行计算查询引擎。如上图,最左侧节点可用于处理单机 TP 型查询,用户可将业务中所有 TP 查询、点查发送到该节点。同时,分析性查询可利用多个计算节点的特性来完成计算(上图中的只读节点),四个节点基于 MPP 工作原理。最终,我们实现了
6、一套系统,既可以做单机点查、点写,也可以做多机并行计算引擎处理 AP 分析。以上架构实现了一体化存储,TP 和 AP 共享一份数据,用户将 TP 数据写到共享存储,AP 做分析时可以实现毫秒级的数据新鲜度。传统的解决方案下,TP 库到 AP 库之间的复制延迟非常长。另外,使用一份存储也减少了存储成本。其次,该架构将 TP 和 AP 做了物理隔离,可以将部分节点配置为负责处理 TP 查询,单机执行;然后将其他节点部署为分布式 MPP 执行,实现了 TP 和 AP 的物理隔离,甚至可以实现不同业务域运行在不同计算节点上,避免 AP 查询对 TP 查询的影响。另外,该架构也具备了 Serverles