书签 分享 收藏 举报 版权申诉 / 37

类型计算机行业大数据系列(一):数据库深度复盘与展望筚路蓝缕星火燎原-220224(37页).pdf

  • 上传人:是***
  • 文档编号:61617
  • 上传时间:2022-02-25
  • 格式:PDF
  • 页数:37
  • 大小:1.61MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    计算机 行业 数据 系列 数据库 深度 展望 筚路蓝缕 星火燎原 220224 37
    资源描述:

    1、- 1 -筚路蓝缕,星火燎原筚路蓝缕,星火燎原大数据系列(一):数据库深度复盘与展望大数据系列(一):数据库深度复盘与展望2022.2.24证券研究报告证券研究报告 | 行业行业深度深度报告报告计算机计算机| 计算机应用计算机应用刘玉萍刘玉萍S1090518120002- 2 -核心要点核心要点数据库作为信息化的核心环节数据库作为信息化的核心环节,是底层硬件基础资源与上层应用之间的重要支撑是底层硬件基础资源与上层应用之间的重要支撑。随着海量数据的涌现和分析能力需求增长,预计未来数据库存储量将出现严重错配,需求迫切性将显著提升。从信息产业链角度来看,数据库作为信息化系统承上启下的关键环节,向下调

    2、用硬件基础资源,向上为应用软件提供重要数据支撑,是信息化中间的核心环节;从国家政策角度来看,数字经济作为国家“十四五”建设的重中之重,数据作为新型关键生产要素,是推动数字经济发展的关键一环,同时,国内数据库长期由海外厂商主导,在国内数据库行业快速发展下,国产数据库将迎来重要发展机遇。不断顺应市场需求变化不断顺应市场需求变化,数据库行业正持续进化数据库行业正持续进化。本篇报告回顾了数据库70年发展历程,从数据模型逻辑、技术架构、需求功能、部署方式、商业模式、存储介质、治理模式等七大维度对数据库发展脉络进行详细梳理。我们发现,由于数据规模、读写需求量等指数级增长,为避免数据冗余与架构的复杂化,叠加

    3、分布式架构技术日趋成熟,将多技术、多模型融合成为数据库发展的重要方向。如将NoSQL非关系型的分布式拓展性与关系型数据模型融合诞生的NewSQL,保留了关系型数据逻辑的同时,大幅提升了系统的灵活拓展能力;数据模型方面,将结构化、半结构化、非结构化等多种数据融合的多模数据库正快速发展;需求功能方面,将OLTP与OLAP融合的HTAP数据库正逐渐成为企业首选等均显示出行业技术融合的发展特点。在国内大力发展数字经济建设的大背景下在国内大力发展数字经济建设的大背景下,数据库行业规模将保持快速增长数据库行业规模将保持快速增长。根据信通院统计,2020年中国数据库市场规模为35亿美元(约合240.9亿元人

    4、民币),预计2025年市场总规模将达到688亿元,CAGR为23.4%。基于对数据库发展趋势与国家政策导向的分析,我们认为,未来数据库市场增量需求主要来自于以下三方面:1 1)国产化进程正逐步加速国产化进程正逐步加速:通过对金融行业国产化数据库建设案例梳理发现,国产数据库已经从边缘系统逐步实现核心系统国产化,显示出国产数据库产品功能、性能水平不断增强。预计随着行业信创逐步落地,对国产数据库需求将进一步提速。2)分布式架构凭借在经济性分布式架构凭借在经济性、安全自主安全自主、灵活性灵活性、可伸缩性等方面的优势可伸缩性等方面的优势,逐步实现对集中式架构替代:逐步实现对集中式架构替代:目前,互联网、

    5、金融、电信等行业分布式升级进展较快,其中金融、电信行业已有分布式数据库在股份制银行、城商行、二三线城市运营商等实现了核心业务系统的改造落地,同时,墨天轮前十大热门数据库均为分布式架构,其应用场景涵盖各行业,显示出国产分布式数据库已经趋于成熟,正成为各行业数据库建设重要选择。3)随着工业互联网随着工业互联网、互联网创新型业务互联网创新型业务、车联网等应用的快速发展车联网等应用的快速发展,非关系型数据库应用将加速落地:非关系型数据库应用将加速落地:非关系型数据库应用场景不断丰富,如图数据库能够支撑社交网络、金融反欺诈等互联网新型应用场景的关联分析业务;时序数据库可以高效存储和快速处理海量时序大数据

    6、,在工业互联网快速发展下,传感器与设备产生的大量实时数据,将推动时序数据库应用快速发展等。风险提示:风险提示:技术创新不及预期;政策落地不及预期;行业竞争加剧风险。dVcZyXiXnVbYNAmNqRnN6MbP7NnPmMoMnPjMnNsQfQoMmR7NpPxOxNoPoRNZsRoQ- 3 - 数据库:信息系统承上启下的关键环节数据库:信息系统承上启下的关键环节 数据库是信息化核心环节数据库是信息化核心环节 七大维度全面梳理数据库发展历程七大维度全面梳理数据库发展历程 发展特点:发展特点:顺应市场需求顺应市场需求,行业,行业持续持续进化进化 国内数据库市场发展趋势分析国内数据库市场发展

    7、趋势分析 国产国产数据库厂商详细梳理数据库厂商详细梳理目录目录- 4 -数据库内核数据库内核数据库作为信息化的核心环节数据库作为信息化的核心环节,是是底层硬件基础资源与上层应用之间的重要支撑底层硬件基础资源与上层应用之间的重要支撑。根据Statista、IDC与Seagate的统计调研,全球数据量将在2035年达到2142ZB,然而企业运营中的数据仅有32%能被存储利用,海量数据的涌现和分析能力需求提升,数据库存储量将严重不足,未来对数据库需求迫切性有望显著提升: 从信息产业链角度分析:数据库作为信息系统承上启下的关键环节,向下调用硬件基础资源,向上为应用软件提供重要数据支撑,是信息化中间的核

    8、心环节; 从国家政策角度分析:数字经济作为国家“十四五”建设的重中之重,数据作为新型关键生产要素,是推动数字经济发展的关键一环,同时,国内数据库长期由海外厂商主导,在国内数据库行业快速发展下,国产数据库将迎来重要发展机遇。1.1 1.1 数据库是数据库是信息化核心环节信息化核心环节资料来源:Statista、IDC、Seagate、艾瑞咨询、信通院、招商证券数据库数据库应用应用计计算算网网络络存存储储搭搭建建读读取取写写入入修修改改维维护护管管理理数据库管理系统(数据库管理系统(DBMSDBMS)数据库系统(数据库系统(DBSDBS)数据库(数据库(DBDB)应用应用数据库系统(数据库系统(D

    9、BSDBS)应用系统整体架构应用系统整体架构18263341471756122142050010001500200025002016A 2017A 2018A 2019E 2020E 2025E 2030E 2035E数据量/ZB全球数据量增长情况全球数据量增长情况广义的数据库通常指广义的数据库通常指数据库系统数据库系统,其包含数据库与数据库管理系统两部分其包含数据库与数据库管理系统两部分,向上通过数据库管理系统支撑应用引擎向上通过数据库管理系统支撑应用引擎,向向下以数据库承接文本下以数据库承接文本、图像图像、声音等数据源声音等数据源,调动计算调动计算、网络网络、存储等基础资源存储等基础资源。

    10、1 1. . 数据库数据库(Database,DB)是按照一定的逻辑结构组织、存储、管理数据的大容量电子文件柜;2 2. . 数据库管理系统数据库管理系统(Database Management System,DBMS)是对数据库进行统一管理和控制的大型软件,主要由内核组件集和驱动组件构成,其中内核组件集按照功能模块划分为管理组件、存储组件、计算组件和网络组件。日志管理日志管理内存管理内存管理存储组件存储组件存储分布存储分布索引管理索引管理计算组件计算组件SQLSQL解析解析任务规划任务规划优化器优化器缓存管理缓存管理网络组件网络组件内部通讯内部通讯对外通讯对外通讯网络协议网络协议连接池连接池

    11、管理组件管理组件集群管理集群管理备份恢复备份恢复安全防护安全防护副本管理副本管理集群管理集群管理备份恢复备份恢复驱动驱动组件组件JDBCJDBCC C- -APIAPIODBCODBC其他其他数据库管理系统数据库管理系统(DBMS)(DBMS)未存储44%存储&利用32%存储&未利用24%存储56%全球数据存储利用情况全球数据存储利用情况- 5 -回顾数据库回顾数据库7070年年发展历程发展历程,分布式分布式、云计算云计算、人工智能等创新技术和基础设施的发展陆续为演化注入新活力人工智能等创新技术和基础设施的发展陆续为演化注入新活力。本章将从数据模型逻辑、技术架构、需求功能、部署方式、存储介质、

    12、商业模式、数据库治理模式等七大维度对数据库发展脉络进行详细阐述,理清行业演化逻辑与发展趋势。1.2.1 1.2.1 从七大维度对数据库发展历程进行详细梳理从七大维度对数据库发展历程进行详细梳理- -1970s1970s1970s1970s1980s1980s1990s1990s2000s2000s2010s2010s- -互联网背景互联网背景数据模型数据模型技术架构技术架构基础技术阶段基础技术阶段基础协议阶段基础协议阶段基础应用阶段基础应用阶段Web 1.0Web 1.0Web 2.0Web 2.0- -3.03.0部署方式部署方式需求功能需求功能存储介质存储介质商业模式商业模式治理模式治理模

    13、式层状、网状层状、网状关系型关系型NoSQLNoSQLNewSQLNewSQL单机单机集中式集中式分布分布式式本地本地部署部署云部署云部署联机事务处理过程联机事务处理过程OLTPOLTP联机分析处理过程联机分析处理过程OLAPOLAPHTAPHTAP融合融合商业商业开源开源磁盘数据库磁盘数据库DRDBDRDB(数据保存在磁盘上,内存缓存磁盘内容作为临时存储)(数据保存在磁盘上,内存缓存磁盘内容作为临时存储)自适应自适应自调优自调优自治自治代表厂商代表厂商代表产品代表产品IBMIBMIBMIBMOracleOracle微软微软SqlServerSqlServerTeradataTeradataM

    14、ysqlMysqlPostgreSQLPostgreSQLEMCEMC、HPHPGreenplumGreenplumHadoopHadoopAWSAWS、googlegoogle阿里云阿里云腾讯云腾讯云内存数据库内存数据库MMDBMMDB资料来源:CSDN、阿里云开发者社区、招商证券数据库发展历程数据库发展历程七大维度七大维度- 6 -标题XXXXXXXXXXXXXXXXXXXXXXXXXX1.2.2 1.2.2 数据库数据库发展特点:发展特点:顺应市场需求,行业持续进化顺应市场需求,行业持续进化资料来源:墨天轮、CSDN、阿里云开发者社区、招商证券标志事件标志事件技术演变路径技术演变路径时间

    15、时间事件事件数据模型数据模型技术架构技术架构部署方式部署方式治理模式治理模式1964世界上第一个数据库系统IDS(Integrated Data Storage, 集成数据存储)诞生网状集中式本地部署人工治理1968世界上第一个层次数据库系统IMS(Information Management System)诞生于IBM 网状 & 层次1970IBM 的研究员Edgar F.Codd提出关系数据模型关系型1974IBM 推出关系模型的原型系统System R1974IBM 的Ray Boyce和Don Chamberlin提出了SQL1979第一个商业数据库版本 Oracle Release

    16、1诞生,提供商用SQL1996MySQL发布,开源数据库开始发展2000s非关系型数据库NoSQL开始盛行,主要包括4种类型: 文档数据库、列簇式数据库、键值数据库和图数据库。非关系型2003-2006Google发表奠定了业界大规模分布式存储系统的理论基础的三篇论文:Google File System、Google MapReduce以及Google BigTable分布式2011结合SQL和NoSQL的NewSQL概念出现关系&非关系并行2011微软发布 Windows Azure Storage2012全球第一个 Global DatabaseGoogle Spanner 论文发表20

    17、16Amazon 发布了代表性的云数据库 Aurora云端部署逐步兴起2018Oracle发布自治数据库AI原生、自治成为新方向2019谷歌联合麻省理工、布朗大学的研究人员共同推出了新型数据库系统SageDB2019华为公司发布了全球首款AI原生(AI-Native)数据库GaussDB顺应市场需求变化顺应市场需求变化,数据库行业正持续进化:数据库行业正持续进化: 随着大数据时代的到来,数据规模和逻辑关系复杂度进一步提升,其中非结构化数据的激增使得非关系型数据库迅速发展; 随着5G下的云计算、物联网等快速发展,对于数据分析的需求、响应速度、存储容量扩展、算力提升等均提出更高的要求,使得分布式数

    18、据库得到快速发展; 信息化水平快速提升下,企业业务规模快速扩张,数据库的运维和管理成为新的难题,数据库云部署模式与借助AI自治成为重要发展方向。数据库发展里程碑事件梳理数据库发展里程碑事件梳理- 7 -1.3.1 1.3.1 数据模型分类演化:数据模型分类演化:NewSQLNewSQL、多模、多模引领新时代引领新时代层次层次(1960s1960s)网状网状(1960s1960s)关系关系(19701970)关系、非关系并行关系、非关系并行NoSQLNoSQL(2000s2000s)NewSQLNewSQL(2010s2010s)多模(多模(2010s2010s)优点优点对层次逻辑的表达清晰对于

    19、层次和非层次结构的事物都能自然地模拟二维表逻辑更易理解;SQL语言操作方便;支持ACID,数据一致、稳定易扩展;性能高;模型灵活;高可用兼具NoSQL对海量数据的存储管理能力和传统关系数据库的ACID、SQL等特性基于一套系统处理多种数据模型局限局限只能处理一对多的关系只能处理少量数据;不易操作和定位能很好地处理表格型数据,却无法处理文本、图像、视频等复杂类型NoSQL不支持SQL查询,不支持数据的强一致事务处理,只能保证数据的弱一致性不具有SQL系统的通用性,NewSQL对传统SQL系统的丰富工具仅仅提供部分访问产品成熟度低代表代表IBM的IMS基于CODASYL组织DBTG报告的DBTC系

    20、统1)商用数据库:Oracle、SQL Server、DB2;2)开源数据库:MySQL、PostgreSQL1)键值数据库:Redis;2)宽列数据库:HBase;3)文档型数据库:MongoDB;4)图形数据库:Neo4jGoogle的Spanner模型、Amazon的Aurora蚂蚁的OceanBase、阿里巴巴的Lindorm扩展扩展纵向扩展结构复杂,不易扩展纵向扩展水平扩展水平扩展水平扩展性能性能较差较差海量数据读写性能差高性能处理海量数据高性能处理海量数据高性能处理海量数据ACIDACID支持不支持支持支持OLTPOLTP支持效果差支持支持OLAPOLAP轻量查询支持支持支持资料来

    21、源:墨天轮、CSDN、阿里云开发者社区、招商证券数据模型的演化本质由数据模型的演化本质由底层底层数据规模数据规模、逻辑关系逻辑关系、类型等驱动类型等驱动,其路径是其路径是:层次层次- - 网状网状- - 关系关系- - 关系关系、非关系非关系并行并行。系编号系名教研室编号教师编号 姓名 研究方向学号姓名成绩在当前关系在当前关系、非关系并行时代非关系并行时代,新型新型NewSQLNewSQL与多模数据库快速发展与多模数据库快速发展。传统SQL受限于其拓展性,在大数据发展下逐渐面临瓶颈,而NewSQL提供了与NoSQL相同的可扩展性,而且仍基于关系模型,保留了极其成熟的SQL作为查询语言,从而保证

    22、了数据的强一致性;同时,基于分布式架构,对接多种数据模型引擎,避免搭建多种类数据库的多模数据库快速发展。系教研室课程学生成绩教师学号学号姓名姓名性别性别年龄年龄专业专业A0赵亦女18计算机A1钱尔男17自动化A2孙珊女19经济A3李思男21统计层次模型层次模型网状模型网状模型关系模型关系模型采用树型结构来表示实体及其实体间的联系采用有向图结构表示实体以及实体之间的联系关系模型的数据结构是一张规范化的二维表层次、网状、关系模型演化层次、网状、关系模型演化数据库模型发展路径数据库模型发展路径- 8 -1.3.1 1.3.1 数据库数据库霸主霸主关系型关系型数据库数据库资料来源:IDC、CSDN、D

    23、B-Engines、TIOBE、艾瑞咨询、招商证券SQLSQL语言逻辑简单易懂语言逻辑简单易懂,使其快速流行使其快速流行,进一步巩固进一步巩固了关系型了关系型数据库的霸主地位数据库的霸主地位。SQL是关系型数据库的标准语言,相比C、Java、Python等编程语言,SQL贴合口语的设计使得其代码复杂度大大简化、便于数据分析人员上手,同时嵌入式的设计也保证了SQL可以被其他编程语言轻松调用,据TIOBE统计,SQL在近20年稳居TOP10编程语言榜单。关系型数据库的二维表数据存储模式为关系型数据库的流行普及提供了环境基础;而SQL语言的流行也反哺了关系型数据库的推广,两者相辅相成,共赢于数据库市

    24、场。DBDB- -EnginesEngines流行数据库流行数据库排名前十(截至排名前十(截至2022/022022/02)数据库前期的演化史本质上是关系型数据库的演化数据库前期的演化史本质上是关系型数据库的演化,关系型数据库已统治市场超过关系型数据库已统治市场超过5050年年。关系型数据库以二维表形式存储实体和关系,具有易理解、易使用、易维护,自1970年诞生以来,逐步成为业界的霸主。时至今日,关系型数据库不断融入分布式、云原生、AI等新兴技术持续进化,仍是数据库的主流,据DB-Engines热度排名(截至2022/02),前四大数据库Oracle、MySQL、Microsoft、Postg

    25、reSQL均为关系型数据库,且分数遥遥领先。排排名名数据库数据库主类型主类型分数分数1Oracle关系型1256.832MySQL关系型1214.683Microsoft SQL Server关系型949.054PostgreSQL关系型609.385MongoDB文档型488.646Redis键值型175.807IBM Db2关系型162.888Elasticsearch搜索引擎162.299Microsoft Access关系型131.2610SQLite关系型128.37课号课号课程名课程名学时学时C4001C4001数据库70C4002操作系统90C4003编程基础60课号课号学号学号

    26、成绩成绩C4001C4001100195C4001C4001100280C4001C4001100388学号学号姓名姓名性别性别专业专业1001张小鹏男计算机1002王小明男经济1003王丽女统计关系型数据库的数据更新过程完全遵循事务关系型数据库的数据更新过程完全遵循事务ACIDACID原则原则,保障数据库正确一致保障数据库正确一致。如果将事务看做上层应用访问数据库的钥匙,ACID原则通过对钥匙的限制保证了数据库在断电、重启、并发读写等极端情况下的正确一致,保证数据库的合理性。ACIDACID原则原则详细详细原子性(Atomicity)原子性保证事务执行的完整性,只能全部执行或者失败回滚全部不

    27、执行一致性(Consistency)一致性通过约束保证数据和业务逻辑的一致性隔离性(Isolation)隔离性通过锁机制创造事务孤岛,保证并发事务互不干扰持久性(Durability)持久性保证已执行事务的效果可以永久保存关系型数据库严格遵循关系型数据库严格遵循ACIDACID原则原则关系型数据库模型逻辑示意图关系型数据库模型逻辑示意图- 9 -权衡权衡一致性与可用性一致性与可用性的的BASEBASE原则原则,确立了确立了NoSQLNoSQL数据库标准数据库标准,为其发展提供了明确指向为其发展提供了明确指向。BASE原则定义了NoSQL下的数据最终一致性,使得NoSQL开发更专注于海量数据分析

    28、和高并发负载,奠定了其更擅长处理数据规模高速增长的互联网等应用场景。1.3.1 1.3.1 星星之火星星之火非关系型非关系型数据库数据库NoSQLNoSQL资料来源:DB-Engines、 CSDN、艾瑞咨询、招商证券典型典型NoSQLNoSQL数据库分类数据库分类键值数据库键值数据库宽列数据库宽列数据库文档数据库文档数据库图数据库图数据库特点特点以键值对的方式存储数据,键是唯一标识符数据存储在记录中,行键唯一标识记录中的列,一行包含大量动态列以文档格式(JSON、BSON、XML或YAML)存储和查询数据存储节点、边、标签和属性缺点缺点牺牲数据结构牺牲存储空间牺牲安全性和可靠性较难适应分布式

    29、架构优点优点提高读写速度解决数据压缩、过滤问题架构灵活、横向可拓展敏捷、可拓展、高性能场景场景web应用程序和会话、缓存、购物车时间序列、历史记录内容管理、APP、目录、日志文件社交网络、知识图谱、搜索引擎代表代表Redis、Oracle BDBHBASE、RiakMongoDB、CouchDBNeo4J、InfoGridBASEBASE原则原则基本基本可用可用(Basically AvailableBasically Available)软软状态状态(Soft stateSoft state)最终最终一致性一致性(Eventual consistencyEventual consistenc

    30、y)数据库故障时,通过损失部分可用功能或者降低响应速度的方式保证核心功能可用允许数据存在中间状态:不同节点的数据副本同步过程存在不一致性无事务更新操作、故障发生时,经过延迟后,数据库最终的数据达到一致分布式系统的分布式系统的CAPCAP原则原则CAPCAP原则原则一致性(一致性(ConsistencyConsistency)可用性(可用性(AvailabilityAvailability)分区容错性(分区容错性(PartitionPartition- -ToleranceTolerance)任何分布式系统必须在一致性与可用性之间寻求平衡数据更新操作后,多个数据副本保持一致系统在部分异常情况下仍

    31、可以正常服务节点被划分为多个区域,区域内可以通信,区域之间无法通信随着互联网随着互联网业务业务规模快速规模快速增长增长,拥有灵活拓展与高读写并发能力拥有灵活拓展与高读写并发能力NoSQLNoSQL数据库得到数据库得到快速发展快速发展。由于传统的关系型数据库在保证数据强一致与系统可用的前提下,其水平扩展能力受到限制;非关系型数据库NoSQL则是基于分布式存储原理,放弃了传统的关系模型,在一致性与可用性之间寻求平衡,从而保证了系统地灵活拓展与高读写并发能力。随着社交媒体等互联网业务快速发展,数据量激增,传统关系型数据库性能逐渐达到瓶颈,因此,以保证拓展性与高并发性能为前提地NoSQL数据库得到快速

    32、发展。非结构化数据存储和分析需求的涌现非结构化数据存储和分析需求的涌现,进一步推动了进一步推动了NoSQLNoSQL的发展的发展。为应对不同种类数据的存储利用需求,NoSQL模式自由,不提供规范化,分类演化出键值、宽列、文档、图等不同的数据存储模型。据DB-Engines对数据库流行程度的统计,MongoDB、Redis和ES 3个NoSQL已经冲入TOP10榜单。此外,我国非关系型数据库主要以基于开源数据库如Redis、InfluxDB、CouchDB等产品进行二次开发为主,其产品已经步入世界前列,如浙江智臾、阿里云TSDB、欧若数网Nebula Graph、百度HugeGraph、华为云G

    33、raphBase等均已在DB-Engines榜上有名。分布式系统分布式系统的的BASEBASE原则原则NoSQLNoSQL数据库分类数据库分类- 10 -1.3.1.3.2 2 技术架构分类演化:分布式架构逐渐成熟技术架构分类演化:分布式架构逐渐成熟资料来源:信通院、CSDN、阿里云开发者社区、墨天轮、招商证券为了应对数据的海量增长并追求更低的扩容成本为了应对数据的海量增长并追求更低的扩容成本,数据库由单机数据库由单机、集中式集中式向向分布式架构快速发展分布式架构快速发展。随着信息化水平快速提升,对数据库的存储、读写并发、扩容要求更高,集中式架构的“Scale Up”纵向扩容机制面临硬件性能瓶

    34、颈,因此“Scale Out”式的横向扩容分布式架构成为新趋势,通过网络将物理分散的数据库单元连接为逻辑上的统一整体。从集中式到分布式的演进降低了对硬件性能的要求,使得企业数据库拓展成本大幅降低。集中式架构集中式架构分库分表中间分库分表中间件件原生分布式原生分布式MPPMPP架构架构分区分片分区分片特特点点集中式数据库是从多个点访问的单个位置的信息集合数据存储在不同单机数据库上,通过中间件记录原数据在硬件结构上“SharedNothing”,不共享底层硬件资源,将任务并行分散到多个服务器节点上,待任务完成后,将各自部分的结果汇总得到最终结果底层存储基于具备分区或分片功能的分布式文件系统,提高存

    35、储系统上限优优点点生态完善、适配性强扩展能力高、效率高保留ACID特性、数据从集中式到分布式的迁移更加简便;通过数据冗余提高集群可靠性局局限限成本高,无法横向拓展性能差、无法高并发短板效应数据同步迟滞场场景景传统金融业务系统互联网公司BI系统、决策支持系统交易日志、状态跟踪、物联网系统拓展方式:系统拓展方式:scale up VS. scale outscale up VS. scale outScale UpScale Up纵向扩展:利用现有存储系统,通过不断增加存储容量来满足数据增长的需求。( (容易达到性能瓶颈容易达到性能瓶颈) )Scale OutScale Out横向扩展:以节点(包

    36、含容量、处理能力、I/O带宽)为单位增加,系统的容量增长和性能扩展同时进行。( (按需扩容,扩展性强按需扩容,扩展性强) )分布式分布式架构逐步由分库架构逐步由分库分表中间分表中间件向原生分布式发展件向原生分布式发展,以应对不同应用场景以应对不同应用场景。分库分表中间件早期主要以电商、社交起家的互联网公司自研为主,但由于其对复杂查询事务的支持较差,难以应对业务瞬时高峰需求,因此更加便捷、可靠的原生分布式数据库应运而生。按照具体实现方式可以分为两类:以Greenplum为代表的主流MPP架构和以Cassandra、HBase为代表的分区分片架构。MPPMPP与分区分片架构示意图与分区分片架构示意

    37、图集中式、分库分表中间件、原生分布式对比集中式、分库分表中间件、原生分布式对比- 11 -1.3.2 1.3.2 技术架构分类演化:技术架构分类演化:AIAI技术赋能分布式架构技术赋能分布式架构AIAI有望解决分布式架构划区难有望解决分布式架构划区难、运维难等痛点运维难等痛点,成为新成为新的的发展发展方向方向:分布式数据库最核心的任务是根据合理的维度划分数据,然而面对分布键不明显,难以sharding的政企类数据,如何找到完美的划分维度、避免跨节点事务成为最大的难题。随着AI技术的发展,通过算法自学习数据模型以智能推荐分布键的技术成为新的研发方向。同时,分布式架构将模型复杂化,运维难度的大幅提

    38、升也迫切需要智能诊断、智能调优、智能运维等技术的发展。华为的GaussDB是业界首个将人工智能技术融入分布式数据库全生命周期,实现自运维、自管理、自调优、故障自诊断和自愈的数据库,目前已部署在金融、消费、游戏等行业,发展前景广阔。资料来源:沙利文市场报告、信通院、招商证券高可用高可用性性带宽要带宽要求求横向扩横向扩展展远程部远程部署署并行控并行控制制灾备恢灾备恢复复设计易设计易度度负载均负载均衡衡无共享无共享架构架构强强强强中中弱弱共享内共享内存架构存架构弱弱弱弱中强中强共享磁共享磁盘架构盘架构中中中中弱弱中中无共享架构无共享架构凭借凭借实现实现高可用高可用、带宽要求低带宽要求低、易横向扩展和

    39、远程部署四大易横向扩展和远程部署四大优势优势,逐步成为分布式主流架构逐步成为分布式主流架构。分布式架构由共享磁盘、共享内存架构,逐步向纯无共享架构发展,在无共享架构中,每个处理器私有内存和磁盘空间,利用网络通信,“Scale Out”式横向增加处理器和相应的内存、磁盘,从而避免事务对内存访问和网络带宽的竞争,提高处理性能。国产方面,无共享分布式架构已经趋于成熟,如PingCAP的TiDB、华为的GaussDB、蚂蚁的Oceanbase、达梦的达梦+、阿里云的PolarDB、腾讯云TDSQL、南大通用的GBase、人大金仓的KingBase、中兴通讯的Golden DB等分布式数据库均为MPP无

    40、共享架构。架构架构详细详细优势优势劣势劣势典型代表典型代表无共享架构每个CPU都有一个专用存储区和专用磁盘空间,两个CPU无法访问相同的磁盘空间,并且CPU之间的通信通过网络连接无共享可以保证数据库的稳定增长,当事务数量继续增加时,添加额外的CPU和主内存可以确保每个事务的处理时间保持不变;且由于各自独立,性能不受硬件上限与网络带宽影响架构设计较为复杂DB2 DPFHadoop共享内存架构多个CPU共享同一块内存,并且这些CPU通过内部通信机制(内部互连网络)进行通信通过增加节点可以提高并行处理能力,扩展更便捷共享内存和共享磁盘的基本问题是干扰,当添加更多CPU时,由于内存访问和网络带宽的竞争

    41、加剧,系统速度变慢,且存在性能瓶颈PostgreSQL共享磁盘架构每个CPU使用其自己的专用存储区,并通过内部通信机制直接访问所有磁盘系统Oracle RAC拥有独立CPU、内存、磁盘,每个节点各自独立,系统中没有竞争点多个CPU共享一块内存,通过内部网络相连,当CPU过多,内存性能与带宽存在瓶颈对磁盘进行分区并通过内部网络连接,CPU拥有独立存储,但磁盘性能与网络带宽存在瓶颈无共享架构在可用性、拓展性等方面具有明显优势无共享架构在可用性、拓展性等方面具有明显优势- 12 -标题XXXXXXXXXXXXXXXXXXXXXXXXXX目的目的数据数据处理处理标标准准化化数数据据量量存储介存储介质质

    42、特点特点场景场景OLTP处理订单、合同等业务增删改查是小传统DBMS方便创建、维护关注实时数据OLAP业务支持决策数据分析否大数据仓库适合创建视图分析分析长期数据规律走势从从OLTPOLTP到到OLAPOLAP,分析功能引入对分析功能引入对数据库要求进一步提升:数据库要求进一步提升:资料来源:CSDN、艾瑞咨询、招商证券1.3.1.3.3 3 需求功能分类演化:需求功能分类演化:HTAPHTAP一站式解决方案一站式解决方案分布式架构的经济性分布式架构的经济性、高并发性能等优势高并发性能等优势,使得使得OLTPOLTP与与OLAPOLAP融合的融合的HTAPHTAP逐步成为主流逐步成为主流:OL

    43、TP和和OLAP独立(独立(-1990s)OLTP+OLAP(1990s-2010s)HTAP混合事务混合事务/分析(分析(2010s-)原因原因上世纪90年代以前,数据存量小、增量小、事务处理为主、分析型需求少随着互联网发展和数据规模增大,分析型需求涌现,解耦合成为大势所趋,企业往往通过ETL过程将OLTP结果数据同步到OLAP系统数据库再加以分析,维护成本大大提高,数据同步延时、纰漏、冗余不可避免随着分布式架构的出现,存储扩容成本大大降低,且高并发性能使得OLTP与OLAP并行成为可能特点特点OLTP和OLAP基于同一数据库实现通过ETL将OLTP结果同步到OLAP系统数据库加以分析201

    44、4年Gartner定义HTAP:打破OLTP和OLAP的壁垒,基于一套数据同时支持实时交互和数据分析需求优缺优缺无法处理海量数据1) 运维成本过高;2) 同步延时、纰漏频出基于分布式架构,支持弹性扩容,按需扩展吞吐,轻松应对高并发、海量数据架构架构OLTPOLAPETLOLAPOLTP数据库行存储引擎列存储引擎应用层复制OLTPOLAP联机事务处理过程OLTP联机分析处理过程OLAP关系型联机分析处理ROLAP多维联机分析处理MOLAPOLTP重在事务处理,主要面向交易过程,强调实时性和稳定性,常应用于EPR、CRM、OA等业务系统OLAP重在分析处理,主要对OLTP存储的数据进行后期分析以辅

    45、助决策,常应用在数据仓库中通过同时连接明细数据和汇总数据实时计算用户需求,使用灵活但是耗时较长,常见用于传统关系型数据库(Teradata、Oracle)、MPP分布式数据库(GreenPlum、GBase、Vertica)、大数据组件(Spark、Impala)预计算所有可能的需求,并将结果存储在多维数据结构Cube中,以牺牲存储空间的方式提高查询效率,主要代表有Kylin,Cognos,SSAS等。OLTPOLTP、OLAPOLAP特点对比特点对比- 13 -标题XXXXXXXXXXXXXXXXXXXXXXXXXX资料来源:沙利文、CSDN、艾瑞咨询、招商证券1.3.1.3.3 3 需求功

    46、能分类演化:需求功能分类演化:HTAPHTAP一站式解决方案一站式解决方案需求功能决定数据库逻辑架构需求功能决定数据库逻辑架构,逻辑架构决定访问性能逻辑架构决定访问性能。为实现海量数据存储、在线高并发,并同时支持OLTP和OLAP的功能,HTAP应运而生,按照具体架构可分为3类:不同系统(不同系统(OLTP+OLAP)同一系统同一系统不同存储结构不同存储结构相同存储结构相同存储结构特点特点运用应用软件实现OLTP和OLAP的松耦合,底层共享存储来缩短数据同步时间基于分布式,不同存储结构分别处理事务和分析,遵循Raft等协议在引擎间复制数据使用单一存储引擎进行事务处理和分析,性能较差架构架构通过

    47、ETL过程将OLTP结果库同步至OLAP数据库,OLTP和OLAP共享统一存储,在应用层实现混合处理,对外整体呈现HTAP能力在数据库层实现HTAP:行存储引擎负责OLTP、列存储引擎负责OLAP在最底层实现HTAP,仅通过单一存储引擎同时支持OLTP和OLAP优缺优缺同步延迟、事务分析延迟目前最主流的目前最主流的HTAP架构架构不成熟、性能较差代表代表SAP、HANA VoraHybridDB、TiDB、HANA、dashDBHive、Impala、Kudu响应速度响应速度吞吐量吞吐量并发访问并发访问事务大小事务大小数据访问数据访问索引规模索引规模实时性实时性物化视图物化视图OLTPOLTP

    48、强弱中弱弱中强弱OLAPOLAP中中弱中中强弱强HTAPHTAP强强强强强强中强国产国产HTAP+HTAP+分布式数据库热度持续高涨分布式数据库热度持续高涨。根据墨天轮排名(截至2022/02),目前国内前六大数据库均为HTAP+分布式架构,包括PingCAP的TiDB、华为openGauss、蚂蚁OceanBase、达梦的达梦+、华为GaussDB、阿里PolarDB。其中排名第一的PingCAP基于Google的Spanner模型和Stanford的Raft算法研发TiDB数据库,借助底层数据同步及行列透明转换技术,将面向联机交易的行存引擎与面向实时分析的列存引擎融合改造为行列混合数据架构

    49、。在HTAP技术浪潮中,TiDB数据库凭借水平线性扩展、强一致分布式事务、故障自恢复的金融级高可用、真正跨数据中心多活等核心特性拔得头筹。OLTPOLAP应用层ETL共享存储数据库数据库行存储引擎列存储引擎应用层复制事务处理分析单一存储引擎应用层事务处理分析HTAPHTAP不同架构解析不同架构解析HTAPHTAP相较于单相较于单OLTPOLTP、OLAPOLAP数据库优势明显数据库优势明显- 14 -标题XXXXXXXXXXXXXXXXXXXXXXXXXX1.3.1.3.4 4 部署方式分类演化部署方式分类演化:国内云部署实现弯道超车:国内云部署实现弯道超车本地部署本地部署云部署云部署云托管云

    50、托管云原生云原生1.0(一写多读)(一写多读)云原生云原生2.0(多写多读)(多写多读)优点优点数据安全性更高部署简单、开箱即用、自动运维弹性扩容、数据一致、减少IO云原生云原生2.0版本尚在理论期版本尚在理论期:计算、内存、存储三者解耦,分层池化;目前面临的挑战众多目前面临的挑战众多:分布式共享内存技术;计算、内存、存储分层解耦的事务处理架构;网络和存储层算子下推等。局限局限管理维护成本高传统数据库IO放大,数据读写效率低写扩展性不足、读节点延迟代表代表Oracle等阿里云 RDS MySQL、Amazon RDSAWS Aurora、华为云 GaussDB数据库上数据库上云成为重要发展趋势

    展开阅读全文
    提示  三个皮匠报告文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:计算机行业大数据系列(一):数据库深度复盘与展望筚路蓝缕星火燎原-220224(37页).pdf
    链接地址:https://www.sgpjbg.com/baogao/61617.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 联系我们 - 行业研究网

    copyright@ 2008-2013        长沙景略智创信息技术有限公司版权所有
    公安局案号:湘公网安备 43010402001071号 | 工信部备案号:湘ICP备17000430号-2 | ICP经营许可证:湘B2-20190120 | 出版物经营许可证:新出发岳文字第43010420211号