《爱分析:2022中国分析型数据库市场研究报告(43页).pdf》由会员分享,可在线阅读,更多相关《爱分析:2022中国分析型数据库市场研究报告(43页).pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、 报告编委 爱分析 黄勇 合伙人&首席分析师 张扬 合伙人&首席分析师 洪逸群 高级分析师 任理 分析师 中国信通院云大所 魏凯 中国信通院云计算与大数据研究所副所长 序言 数字化时代,数据使用场景呈现多元化趋势,数据规模也随之爆发式增长。海量异构数据的爆发式增长,对数据库的存储和计算能力提出了更高的要求。分析型数据库因其在处理海量实时数据时具有优秀的存算和管理能力,近年来赢得了市场的青睐。 分析型数据库最早的定义是指从分散的数据源中抽取、清理和汇集各类结构化数据,形成面向特定分析主题的、相对稳定且能反映历史变化的数据集合,并通过 OLAP(联机分析处理引擎)来对这些数据进行分析,即通常意义的
2、数据仓库。其中OLAP 数据库概念最早由关系型数据库之父E.F.Codd 于1993 年首次提出,他认为用户的决策分析需要对关系型数据库进行大量计算才能得到结果,OLTP(联机事务处理)已经不能满足终端用户对数据库查询分析的需要,因此,E.F.Codd 提出了多维数据库和多维分析的概念。OLAP 数据库的提出引起了很大的反响,OLAP数据库作为一类产品同 OLTP 数据库明显区分开来。 在此后近 30 年的演进中,分析型数据库先后出现了共享存储架构数仓、大规模并行处理(MPP)架构数据仓库以及数据湖等技术架构。近年来,随着企业数据分析需求的不断提升,具有流批一体和存算分离,能通过元数据层在数据
3、湖上实现数据管理功能的智能湖仓受到了更多关注,分析型数据库迎来新阶段智能湖仓。伴随企业数字化转型战略深入推进,分析型数据库内涵也在不断扩展,我们认为当下的分析型数据库是指为应对企业管理、业务、数据分析师、数据科学家等人员对数据的各类分析和应用需求而提供的各类数据存储和计算引擎,包括传统数据仓库、云数据仓库、数据湖等,以及目前正在兴起的智能湖仓。 后疫情时代背景下,分析型数据库在更多业务场景中实现了更广泛的应用,如流调溯源、时空分析等,分析型数据库市场也迎来了爆发式增长。近些年国内分析型数据库创业公司日益涌现,产业资本不断涌入,获得融资的公司数量及额度均大幅增长。据公开资料统计,2013-202
4、1 年,主打数据分析场景的数据库企业成立数量为 11 家,占总数据库企业总成立数量的 24%,融资次数共计约 40 余次,融资总额约近 50 亿元人民币。竞争激烈的市场,哪些公司具有真正潜力;当前火热的市场是否只是一场泡沫; “智能湖仓”阶段后,分析型数据库又将向哪个方向发展,本报告将进行一一梳理和详细解答。 魏凯 中国信通院云计算与大数据研究所副所长 目录 前言:为什么要研究分析型数据库 . 6 一、分析型数据库的定义与发展历程 . 8 分析型数据库的诞生 . 8 分析型数据库的定义及其延伸 . 8 分析型数据库的发展历程 . 8 2. 分析型数据库的技术演进趋势及其驱动因素 . 11 第一
5、代分析型数据库共享存储架构数据仓库 . 11 第二代分析型数据库MPP 数据仓库 . 12 第三代分析型数据库数据湖 . 13 第四代分析型数据智能湖仓 . 14 3. 中国分析型数据库市场规模 . 21 中国分析型数据库市场发展的驱动因素 . 21 中国分析型数据库市场规模与增速 . 23 4分析型数据库厂商关键竞争要素 . 26 厂商背景:团队背景和产品定位 . 26 技术架构:技术路线和场景适用能力 . 26 自研能力:完善功能、提高稳定性、保障安全性 . 27 商业模式:提供数据平台全栈产品和服务 . 28 行业落地:在行业领域的经验积累 . 29 5分析型数据库市场竞争格局 . 31
6、 传统数据库厂商 . 31 新锐数据库厂商 . 32 公有云厂商 . 33 分析型数据库典型产品分类 . 33 6国内代表厂商分析 . 36 南大通用 GBASE . 36 滴普科技 FASTDATA . 37 华为云 MRS . 39 结语:国内分析型数据库厂商的机遇 . 41 前言:为什么要研究分析型数据库 随着数据成为驱动社会与经济发展的核心生产要素,作为关键数字基础设施的数据库,其技术趋势和市场格局正在经历剧烈的变化。 一方面,数据规模的迅速膨胀,以及大量创新性的数据分析和应用场景的出现,对分析型数据库的存储和计算能力也提出了更复杂的要求。 另一方面,为应对新的趋势,国内外传统数据库厂
7、商、新锐数据库厂商和公有云厂商等各类厂商近年来纷纷加大对分析型数据库的投入和布局,它们或推出了新一代的智能湖仓产品,或对传统的数据仓库、数据湖进行了重大升级。 变化也意味着机遇,为了挖掘出该领域具备潜力的代表性公司,本报告将详细梳理分析型数据库的发展历程和技术演进趋势,重点阐明中国分析型数据库市场的价值和发展空间,建立分析型数据库厂商的评估模型,并对重点公司的产品技术、研发能力、商业模式、行业落地情况进行分析。 北京爱分析科技有限公司 07 分析型数据库的 定义与发展历程 北京爱分析科技有限公司 08 一、分析型数据库的定义与发展历程 分析型数据库的诞生 分析型数据库最早是从交易型数据库衍生而
8、来。在数据库诞生和发展的早期,其应用场景主要是对数据进行统一的存储、管理和访问,因此用户需要数据库能够实现对数据的增改删操作,也即联机事务处理(OLTP) ,此类数据库被称为交易型数据库(也称事务型数据库) 。随着用户的需求从查看单个交易数据逐渐衍生出对交易数据的汇总、对比等分析需求,数据仓库在 1980 年代开始出现。一直到 1993 年,关系型数据库之父 Edgar F. Codd才正式提出联机分析处理(OLAP)的概念后,分析型数据库的概念也由此正式诞生。 分析型数据库的定义及其延伸 分析型数据库最早的定义是指从分散的数据源中抽取、清理和汇集各类结构化数据,形成面向特定分析主题的、相对稳
9、定且能反映历史变化的数据集合,并通过 OLAP 引擎来对这些数据进行分析,也即通常所说的数据仓库。 随着企业数据分析需求的不断变化,以及技术的持续演进,分析型数据库的定义和内涵也在不断延伸。我们认为,当下的分析型数据数据库是指为应对企业管理、业务、数据分析师、数据科学家等人员对数据的各类分析和应用需求而提供的各类数据存储和计算引擎,包括了传统的数据仓库、数据湖,以及目前正在兴起的智能湖仓。 分析型数据库的发展历程 分析型数据库已经经历了数十年的发展,期间伴随了多个关键概念的提出,以及众多厂商推出的重要产品,这些事件成了串联分析型数据库发展历程的关键节点,也大致勾勒出了分析型数据库的演进趋势。
10、北京爱分析科技有限公司 09 图 1: 国内外分析型数据库发展历程重要节点 北京爱分析科技有限公司 010 分析型数据库的技术演进 趋势及其驱动因素 北京爱分析科技有限公司 011 2. 分析型数据库的技术演进趋势及其驱动因素 分析型数据库诞生至今,已经经历了共享存储架构数据仓库、MPP 数据仓库、数据湖三代的发展,目前正在往第四代智能湖仓方向演进。在这一发展历程中,驱动分析型数据库代际演进的因素主要包括了应用场景、数据以及计算环境三个层面不断发生的变化,也由此造成几代分析型数据库在技术架构、功能和性能层面的根本差异。 表 1:分析型数据库的代际演进 第一代分析型数据库共享存储架构数据仓库 基
11、于数据库的共享存储架构数据仓库是分析型数据库最早的形态,其可以追溯到诞生于 1970 年代末到 1980 年代初的 Oracle、DB2。在该阶段,企业的数据分析的应用场景较单一,主要是面向管理层提供若干固定报表。数据类型为结构化数据,数据量也相对有限。 技术架构层面,对于该阶段的数据分析需求,企业通常是建设一套用于分析查询的历史数据库来汇集不同事务型数据库的原始数据。 北京爱分析科技有限公司 012 功能层面,共享存储架构数仓具备很强的稳定性,支持各类 SQL 标准,以及 ACID 特性(即数据库的原子性、一致性、隔离性、持久性)。 性能层面,由于共享存储架构数仓的计算节点能够访问任意的存储
12、节点,其需要配备专有物理硬件,其性能优化良好。但共享存储架构的缺点是可扩展性较差,一般扩展到十几个节点就会遇到瓶颈,因此当数据量达到千万、亿级别时,数据的计算就会出现延时。 第二代分析型数据库MPP 数据仓库 最早的 MPP(大规模并行处理)数据仓库是 Teradata 于 1984 年推出的基于专有硬件的无共享架构 MPP 数仓,后来也出现了基于 x86 通用服务器的 MPP 数仓 Greenplum、Vertica。在该阶段,企业数据分析的应用场景已经从面向少数管理人员提供固定报表,转变为面向业务人员提供更广泛的批处理报告、BI 和可视化,以支持业务决策。与此同时,企业需要处理的数据类型依
13、旧是结构化数据,但数据量出现了快速增长,达到了 GB 或 TB级。 技术架构层面,为了应对上述的数据分析需求,专用于 OLAP 的分析型数据库从事务型数据库中分离出来,形成了沿用至今的数据仓库。数据仓库的设计是为了支持快速的数据查询和数据分析任务,其技术架构是建立了一套数据流,通过预先定义 Schema 的方式,将事务型数据库中的结构化数据经过 ETL 操作,形成“表”结构的数据写入数据仓库中。与此同时,数据仓库在数据组织方式上开始普遍使用列存储取代交易型数据库的行存储,由于列存储具备自动索引、减少总 I/O、利于数据压缩等优势,数据仓库因此得以极大地提升其查询性能。 北京爱分析科技有限公司
14、013 图 2:数据仓库架构 功能层面,由于 MPP 数仓底层的数据依旧由事务型数据库提供,并且经过长时间的发展,其 SQL 标准,以及ACID 特性的稳定性和可靠性变得更高。但 MPP 数仓仅能处理结构化数据,无法处理半结构化和非结构化数据。 性能层面,MPP 数仓采用无共享存储架构,各计算节点都有独立的存储节点,因此并行处理和扩展能力更好,能够满足大数据量(GB 或 TB 级)下的高并发、高性能需求,并且其可扩展性相比共享存储架构有了较大提升。但当集群扩展到数百节点时,MPP 数仓依然会出现性能瓶颈,扩容成本同样不菲。 第三代分析型数据库数据湖 以 Hadoop 为代表的数据湖出现在 20
15、05 年之后。在该阶段,由于互联网的兴起,企业需要处理的数据呈现出多类型、大规模的特点。一方面,数据类型除了包含大量结构化数据,为包含了各类半结构化数据(如 CSV、XML、日志)、非结构化数据(如文档、图片、音频、视频)。另一方面,数据量从 GB 或 TB 级进一步提升至 TB 或 PB 级。与此同时,企业的数据分析的应用场景已经变得更加丰富,除了传统的数据查询、固定报表,也出现了大量面向业务监测和洞察的自助式分析,并且出现了一定的实时性数据分析场景。 技术架构层面,为了承载对大量结构化、半结构化、非结构化数据的存储与处理,Hadoop 体系使用 HDFS 做数据存储,可以灵活地以低成本存储
16、任意类型的原始数据,使用 Mapreduce、Spark 等引擎做大数据计算。随着Hive、SparkSQL 等大数据组件的出现,企业可以基于 Hadoop 实现数据仓库(SQL-on-Hadoop)的功能,即 北京爱分析科技有限公司 014 将数据湖的数据经过 ETL 到数据仓库,以支持 BI 等应用。与此同时,Storm、Flink 等流处理引擎,也能够一定程度满足企业实时数据处理的需求。尽管 2015 年后,云服务商提供的对象存储如 AWS S3 大量取代私有部署的HDFS,存储成本降低很多,但基于数据湖的大数据架构基本没有改变。 图 3:数据湖架构 功能层面,由于数据湖中各种类型数据都
17、是按原样存储,采用分析时写入 Schema(schema-on-read)的模式,因此数据湖的 SQL 标准、ACID 特性支持较差,其数据版本控制和索引功能也不足,并且 Hive 本身不支持单条记录的修改,这些原因导致数据湖难以取代 MPP 数仓对结构化数据的处理能力。 性能层面,SQL-on-Hadoop 在软件上实现了存储节点和计算节点的互相独立,可以分别独立扩展,因此其节点可以扩展至数千规模。由于实践中,企业部署 Hadoop 主要还是基于物理机,在硬件层面,其计算与存储资源仍然是绑定的。 第四代分析型数据智能湖仓 当前企业数据分析与应用需求的变化趋势 在解析第四代分析型数据库在技术架
18、构、功能和性能层面的特征之前,我们需要首先了解近年来数据分析的应用场景、数据以及计算环境等方面发生的重大变化趋势,以及现有的分析型数据库在应对这些变化时的主要缺陷。 北京爱分析科技有限公司 015 首先,企业数据分析的应用场景变得更加广泛。数据正在成为业务创新的核心,基于数据分析,企业可以预测客户行为、提供个性化的客户体验、预测市场趋势、制定业务战略等,从而提高企业的竞争力。与此同时,数据分析门槛的降低使得企业内部越来越多的业务人员成为数据消费者,并向“人人都是分析师”的方向演进。 在这样的背景下,企业内部的数据分析与应用数量急剧增长,除了传统基于结构化数据的 BI 应用,实时数据处理与分析的
19、需求在快速增加。与此同时,大量的创新性的 AI/ML 应用层出不穷。根据爱分析预测,头部企业潜在 AI/ML 应用场景数量最多可达到 5000 到 10000 例,中长尾企业的 AI/ML 应用场景数量可达到 100 到 1000例。 图 4:企业潜在 AI/ML 应用场景数量 测算逻辑: 场景指人工智能技术能够应用的最小单点应用,如点餐 APP 智能推荐,潜在应用场景通过(企业内部系统数)*(每个系统中可以应用人工智能替换人工操作或规则模型数量)进行估算 北京爱分析科技有限公司 016 表 2:重点行业典型数据智能创新应用场景 其次,企业的总数据量以及实时数据正在以前所未有的速度爆发式增长。
20、随着互联网的深入发展,以及云、5G等基础设施的成熟和兴起,大规模的应用程序、移动设备、边缘设备的联网导致数据规模激增,大量企业需要处理数据量将达到 PB 级,甚至更高。根据 IDC 的数据,到 2025 年全球数据总量将达到 175ZB,而其中有超过25%为实时数据。 北京爱分析科技有限公司 017 图 5:2025 年全球数据总量及构成 最后,企业业务和分析系统上云正在加速。随着企业的业务系统、分析系统在往云端逐步迁移,其数据分析系统也因此在云端进行部署,以充分利云的可扩展性和相关技术资源。根据 IDC 的数据,到 2025 年全球 49%的数据将存储在公有云中。尽管国内市场由于政策监管、企
21、业接受度等原因,国内企业上云步伐不如国外激进,但长期而言,这一趋势不会改变。 传统分析型数据库应对当前需求的主要缺陷 在实践中,大量企业还在使用传统的数据仓库和基于数据湖的大数据解决方案,并且很多企业内部有多套数据系统并行,满足不同的数据分析需求。但由于诸多原因,这些解决方案通常存在以下主要的缺陷: 存储计算资源难以弹性扩展,制约了大数据量下数据分析的性能和速度。无论是 MPP 数仓还是本地部署的Hadoop 大数据解决方案,其存储和计算资源都是耦合的。这种设计通常会导致存储资源冗余而计算资源不足,扩展成本高,并且节点扩展会存在上限。面对大数据集,企业可能需要花费数小时或者更长时间来查询数据,
22、从而限制了大数据分析的性能和速度。 缺乏优化的性价比,资源消耗大、成本高。一方面,在数据湖加数仓的两层架构中,数据会首先被 ETL 到数据湖中,之后再被 ETL 到数仓中,这会在系统中引入额外的复杂性,不仅需要付出大量的 ETL 作业成本,并且将数据从数据湖复制到数仓中也会需要支付两倍的存储成本。另一方面,由于数仓使用的是专有数据格式,将这些数据或工作负载迁移到其他系统也会产生额外的成本。 对人工智能和机器学习等高级分析的支持不足。当前流行的 TensorFlow、PyTorch 和 XGBoost 等机器学习系统很难在现有分析型数据库之上高效运行,因为这些系统从数仓或数据湖中读取大型的数据集
23、时需要写非常复杂 北京爱分析科技有限公司 018 的非 SQL 代码,并且数据湖本身缺少数仓丰富的数据管理能力,如 ACID 特性、数据索引、数据版本控制等,进一步加大了读取数据的难度。 系统架构复杂,稳定性差,管理和维护成本高。企业在过往多年的发展中,由于技术能力、资源、制度流程等多种因素的限制,采取了很多临时的数据方案。一方面,企业会在原有数仓和大数据系统中,根据需求不断做升级、打补丁。另一方面,由于数据仓库和数据湖都存在各自的不足,为了满足不同的数据处理与分析需求,企业经常会建立独立的系统来处理数据,例如单独建立的数仓、数据湖、流数据处理平台等。这些因素导致企业实际的数据系统架构非常复杂
24、,技术债务累计,系统的管理和维护成本非常高。 图 6:典型多套系统并行的企业数据平台 第四代分析型数据库“智能湖仓”的诞生 通过分析近年来数据分析的应用场景、数据以及计算环境等方面发生的变化,以及现有的分析型数据库在应对这些变化时的主要缺陷,我们认为,下一代的分析型数据库必然会朝着增强分析性能、提升易用性、降低使用成本的方向发展。 在这样的技术趋势下,Databricks 于 2016 年推出 Delta Lake,旨在在数据湖上支持类似 DBMS 的数据管理功能,而随着 Databricks 于 2020 年率先在业内提出 LakeHouse 的概念,智能湖仓由此开始兴起。 在国外市场,Sn
25、owflake 推出了数据云产品,在其云上数据仓库的基础上增加了数据湖的功能。亚马逊云科技基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习数据服务实现智能湖仓。在 北京爱分析科技有限公司 019 国内市场,公有云厂商如华为云、阿里云,新锐数据库厂商如滴普科技也于近年推出智能湖仓产品,并收获了一批行业头部客户。 图 7:智能湖仓架构 智能湖仓在技术架构、功能和性能层面主要具备以下主要特征: 通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如 Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如 ACID
26、 事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的 SQL 性能。 流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过 CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至 OLAP 系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。 云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,
27、且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。 北京爱分析科技有限公司 020 中国分析型数据库 市场规模 北京爱分析科技有限公司 021 3. 中国分析型数据库市场规模 中国分析型数据库市场发展的驱动因素 近期因素:企业数据处理与分析需求升级 分析型数据库市场发展的近期驱动因素是企业的数据处理与分析需求的升级。面对新的数据处理与分析需求,企业原先的数据系统存在诸多限制,因此需要对分析型数据库的功能也进行相应升级,这些需求包括: 超大规模结构化数据的查询:满足对百万甚至千万级表单数据查询的的高性能; 实时数据
28、处理:满足大规模实时数据处理的需求; AI/ML 应用:提供大规模 AI/ML 应用开发的数据读取和相关功能支持; 统一存储与分仓隔离:解决数据孤岛问题,并针对不同业务需求进行数仓建设; 现有系统架构运维复杂:现有数据平台多个系统并行,管理和运维成本高。 受产业特性、行业和企业发展阶段,企业数字化程度等因素影响,国内企业在实践中对上述因素的需求程度存在较大差异。对此,我们对多个行业企业的相关需求进行了调研,发现金融、能源、先进制造、零售等行业企业目前存在多个显著的数据处理与分析需求升级因素。 北京爱分析科技有限公司 022 图 8:重点行业数据处理与分析需求升级因素 远期因素:分析型数据库全面
29、迭代 企业对分析型数据库的功能升级需求,近期内会存在沿用传统的数据仓库或数据湖进行功能升级,以及采用全新智能湖仓两种路径。长期来看,我们认为,未来的企业都会是高度数字化的,在需要处理的数据规模以及数据分析场景广泛性方面也都会趋于统一,企业都需要构建统一数据存储与计算底座,而传统的分析型数据库由于自身的种种局限性,将会逐渐被智能湖仓取代,企业将完成分析型数据库的全面迭代。 北京爱分析科技有限公司 023 图 9:未来企业的数据平台架构 中国分析型数据库市场规模与增速 分析型数据库包括了数据仓库、数据湖以及智能湖仓,因此,分析型数据库的市场规模为这三者的市场规模之和。 根据 IDC 的数据,202
30、1 年,中国数据仓库市场规模为 87.1 亿元人民币,大数据平台软件市场规模为 162.8 亿元。其中,IDC 定义的大数据平台的存储计算引擎包含了数据湖和智能湖仓两类。因此,可以认为 2021 年中国分析型数据库的市场规模为当年数据仓库与大数据平台市场规模之和,为 249.9 亿元。 同时,根据 IDC 的预测数据,到 2024 年,中国数据仓库市场规模为 168.5 亿元,中国大数据平台软件市场规模为 352.9 亿元。综上数据,预计 2024 年,中国分析型数据库市场规模将达到 521.4 亿元,复合增长率 CAGR 为27.7%。 智能湖仓在未来将逐步替代传统的数据仓库和数据湖,其潜在
31、可触达的市场即为整个分析型数据库的市场。作为下一代分析型数据库,智能湖仓能够直接在数据湖的低成本存储上实现类似数据仓库的数据结构和数据管理功能,从而兼具了传统数据仓库与数据湖的数据存储与计算能力,在功能、性能、成本等方面具备显著优势。因此,我们认为长期来看,随着企业数据量的进一步增长,分析场景的更加丰富,智能湖仓将逐步替代传统的数据仓库和数据湖,其潜在可触达的市场规模即为数据仓库与大数据平台软件的市场规模之和。 北京爱分析科技有限公司 024 图 10:中国分析型数据库市场规模及增速 测算逻辑补充: 1. 数据仓库和大数据平台软件市场规模数据都包含了本地部署和云端部署两种模式。 2. 大数据平
32、台软件还包括了数据开发、数据资产管理、平台监控管理等运营管理工具。由于数据湖或智能湖仓厂商通常也会提供这些软件服务,因此可以认为大数据平台软件市场规模属于这类厂商能够触达的市场规模。 北京爱分析科技有限公司 025 分析型数据库厂商 关键竞争要素 北京爱分析科技有限公司 026 4分析型数据库厂商关键竞争要素 分析型数据库市场参与者众多,为了更准确地判断市场格局,理解主要厂商的竞争优势,我们从五个维度梳理了分析型数据库厂商关键竞争要素,包括:厂商背景、自研能力、技术架构、商业模式、行业落地。 厂商背景:团队背景和产品定位 厂商背景能够反映厂商在相关领域的底蕴、研发实力、发展策略等,主要关注成立
33、时间、团队背景、产品定位等信息。 厂商成立的时间较早一般意味着其在数据库市场有较深厚的积累,这类厂商有着较高的市场知名度,产品通常成熟稳定,服务的客户数量也较多,而近年来新成立的厂商通常在产品技术层面有较大创新,能够满足企业快速变化的数据处理需求。 团队背景反映的是厂商在数据库产品方面的技术积累和研发经验,头部数据库厂商的核心团队成员通常来自国内外老牌数据库大厂、公有云厂商,或者顶尖院校。 产品定位则反映厂商在分析型数据库领域产品能力、服务客群、服务范围等。 技术架构:技术路线和场景适用能力 厂商的分析型数据库产品采用不同的技术架构,代表了其技术路线和场景适用能力的不同。目前市场上主流厂商提供
34、的分析型数据库包括了前文所述的第二代到第四代,即 MPP 数据仓库,数据湖(基于 Hadoop 生态)以及智能湖仓。 北京爱分析科技有限公司 027 表 3:不同技术架构分析型数据库关键指标 自研能力:完善功能、提高稳定性、保障安全性 自研能力较强的厂商能够掌握分析型数据库的核心代码,从而在数据库的功能迭代和管理运维方面提供原厂级服务,具备较强的竞争优势。厂商掌握核心代码可以从源头解决软件的核心问题,一方面,厂商因此可以主导产品的功能迭代,并针对不同客户的个性化需求做定制化功能;另一方面,厂商可以在网络存储计算资源、安全管控等方面做更深的优化,提供原厂级的数据库管理运维工具,以提升数据库的性能
35、,并使得数据库具备更高的稳定性和安全性。 分析型数据库厂商的自研能力包含两种方式,即自研数据库内核或基于开源技术做源码级改造并回馈开源社区。自研数据库内核的在数据仓库厂商中较常见,但国内外主流数据湖和智能湖仓厂商通常都是基于开源技术做二次开发。例如,智能湖仓厂商主要基于 Netflix 开源的 Iceberg 或 Uber 开源的 Hudi 做商业化版本产品,典型厂商产品如基于 Iceberg 的滴普 FastData、基于 Hudi 的华为 MRS、基于 Flink+Iceberg 的网易 Arctic 平台等。尽管 DataBricks 目前已经开源了其 Delta Lake,但 Data
36、Bricks 之外,市场上暂无主流的相关商业化版本产品。 北京爱分析科技有限公司 028 图 11:分析型数据库厂商自研方式、目标与价值 基于开源技术做二次开发,厂商能持续给开源社区做贡献,并在开源社区的具备较高技术影响力是关键。厂商对源代码的更改如果不被主流社区接纳,其产品技术与存在与主流社区脱节,产品稳定性不足的风险。 因此,对于分析型数据库厂商,尤其是智能湖仓厂商,我们应重点关注其与开源社区的联系紧密度,以其在开源社区的技术影响力,只有厂商对开源技术的二次开发能持续回馈到主流社区,在主流社区建立较领先的地位,并可以一定程度上影响开源社区的技术发展路径,才可以被认为具备较强的自研能力。 商
37、业模式:提供数据平台全栈产品和服务 商业模式层面,国外厂商以提供数据库产品为主,而在国内市场,由于企业的数字基础建设整体上较落后,企业通常需要厂商提供出数据库产品之外,搭建数据平台所需的工具组件,以及相关实施和咨询服务。 国内厂商依据不同分类,其商业模式也有相应差异。传统的数据库厂商通常只为企业提供数据库产品,以及数据库运维工具和部署服务;大数据解决方案提供商,包括数据湖或智能湖仓厂商除了提供数据库产品,通常也会提供包括数据开发、数据治理、数据资产管理等搭建数据平台所需的工具组件,以及针对数据平台搭建的实施和咨询服务。这其中,厂商间的主要差异在于,各厂商的数据平台相关的工具组件数量和功能完善度
38、存在一定区别,受限于服务过的客户范围和经验积累,其实施和咨询服务的效率和体验也存在优劣之分。 北京爱分析科技有限公司 029 我们建议重点关注能够提供完善数据平台全栈产品,以及实施和咨询服务经验丰富的厂商,这类厂商通常能满足更多类型的客户需求,获得更多的市场份额。此外,公有云厂商在商业模式也存在一定特殊性,这类厂商虽然也能提供数据平台相关的产品、实施和咨询服务,但其侧重点在于为企业提供云端部署的标准化数据库产品,且其通常会将数据库产品与自家云基础设施服务绑定销售,定制化服务通常只面向行业大客户。 图 12:分析型数据库厂商典型商业模式 行业落地:在行业领域的经验积累 分析型数据库在行业的落地情
39、况反映的是厂商的产品技术能力得到行业客户的验证程度,以及在行业领域的经验积累情况。不同行业企业由于其所需处理数据量、数据类型、分析场景存在差异,其对分析型数据库的功能、性能、成本等方面的要求也各有不同。例如金融、能源等行业头部企业通常都有着 PB 级超大规模的数据,需要数据库具备千万级单表查询的高性能,对数据的实时处理能力要求也很高,因此,分析型数据库厂商如果能获得较多金融、能源行业头部客户的使用,意味着厂商在超大规模数据的计算查询、实时数据处理层面具备很好的性能表现,且数据库产品稳定性较高;而零售行业企业存在大量探索性的分析场景,且对数据存储与处理的成本较敏感,因此,厂商如果积累了较多零售行
40、业企业,则说明其在零售领域有较深的行业理解,能满足这类企业个性化的分析场景的需求,且产品具备较高的性价比。 北京爱分析科技有限公司 030 分析型数据库市场 竞争格局 北京爱分析科技有限公司 031 5分析型数据库市场竞争格局 分析型数据库市场参与者众多。在几十年的发展历程中,分析型数据库已经经历过四代演进,传统数据库厂商通过不断迭代产品满足用户需求,依然是该市场中的主要参与者。近年来,随着数据成为企业最重要的生产要素,企业对数据存储与处理变得更加复杂,国内外市场中涌现出了一批新锐的数据库厂商,他们在产品设计上采用了最新一代湖仓一体的的架构设计,而各大公有云厂商也推出了面向多种应用场景的分析型
41、数据库产品。 图 13:国内外分析型数据库市场代表厂商 注:部分最近几年新成立的数据库厂商,主推传统 MPP 数仓或数据湖产品,同样归为传统数据库厂商。 由于公司底蕴,技术路线等原因,不同类型厂商在产品技术能力、商业模式、客户积累等方面存在诸多差异,因此具备相应的优势与不足。 传统数据库厂商 传统数据库厂商包含两类,一类主要提供传统的 MPP 数仓,另一类主要提供基于 Hadoop 生态的数据湖服务。这类厂商很多都有着悠久的历史,甚至伴随着几代数据库的发展至今,如 Oracle、Teradata 等。 优势 稳定性和安全性高。成立时间较久的传统数据库厂商,其产品经过长期的打磨迭代,已经得到大量
42、客户的使用和验证,因此其通常具备很高的稳定性和安全性。例如,Cloudera 基于 Hadoop 生态先后推出了大数据平台CDH 和 CDP,尤其目前的发行版产品 CDP 在计算引擎、多种分析功能、管理工具、资源调度等方面都做了大量 北京爱分析科技有限公司 032 深度优化,并且 Cloudera 在全球有 700 多名研发工程师,能保证用户获得稳定的使用体验。同时,借助共享数据体验技术(SDX)、CDP 中的安全和治理功能,CDP 能够实现不同云上企业数据安全、隐私和合规的一致性。 客户基础好。在分析型数据库开始兴起的早期,一些传统数据库厂商凭借领先的产品和技术,完善的管理工具和服务,占据了
43、大量市场份额,并一致延续到现在。以 Oracle 为例,在国内市场,大量金融、电信等行业企业至今还在使用基于 Oracle 数据库构建的数据仓库。而在国外市场,大部分世界 500 强,以及更多中小型企业也是Oracle 的用户。随着分析型数据库的技术发展,Oracle 也不断与时俱进,推出了云数仓产品 Oracle ADW,从而满足更多客户的需求。 不足: 技术架构传统。传统数据库厂商通常都是沿用原先的技术架构,针对新的功能需求做技术升级和大补丁,由此会造成系统架构越来越复杂,管理和运维成本高。同样以 Cloudera CDP 为例,尽管最新版的 CDP 已经在混合云和多云部署、存算分离、多功
44、能分析做更多的支持,但 CDP 依然沿用了 Hadoop 生态体系的技术,目前 CDP中已经包含了多达 39 个开源项目,涵盖存储、计算、流处理、编排、SQL、NoSQL 等多种组件,这样的系统架构非常复杂,管理维护成本高。同时,这种传统架构对一些新的功能支持不足,例如,不支持数据库之上提供完整的数据链路等。 新锐数据库厂商 优势 技术架构先进、满足多种分析场景。新锐数据库厂商在技术架构上很多采用了全新一代的设计,包括了湖仓一体、流批一体、云原生等,并且对存储计算引擎做了大量优化,能够以低成本、高性能满足企业的多种分析需求。 以滴普科技为例,其智能湖仓产品 FastData 底层采用了统一的数
45、据存储,通过统一技术元数据层实现完善的数据管理能力,并对接各类分析引擎,满足企业对多模数据统一存储与处理,以及批处理、流式计算、交互式分析、机器学习等各类分析需求。同时,FastData 采用流批一体架构,能够实现 PB 级数据秒级实时分析。 不足 客户接受度有待提升。新锐数据库厂商在产品技术层面具备领先优势,但企业用户对新一代的分析型数据库的接受度还有较大提升空间。一方面,大中型企业通常数字化程度较高,它们在传统的数仓、数据湖建设上已经有了 北京爱分析科技有限公司 033 较大投入,其数据平台中已经有了大量的业务应用和 ETL 任务,直接迁移的工作量和成本非常高。因此,目前企业通常都是出现大
46、量新的数据存储和处理需求的时候,才会引入智能湖仓。另一方面,区别于国外企业对于上云的激进步伐,国内企业整体上上云步伐较慢,很多企业目前还是采用本地部署的模式,难以发挥云原生带来的敏捷、弹性、低成本等多种优势。 公有云厂商 优势 产品类型丰富、满足多种应用场景。公有云厂商通常会提供多种类型的分析型的数据库,满足企业各类分析需求。以阿里云为例,其分析型数据库产品包括云原生数据仓库 AnalyticDB MySQL 版、AnalyticDB PostgreSQL 版,实时数仓 Hologres、大数据计算服务 MaxCompute、基于 Hadoop 的大数据平台 E-MapReduce,智能湖仓
47、Data Lake Formation。 不足 销售绑定云服务,缺少中立性。公有云厂商在 IaaS、PaaS 和 SaaS 层提供了丰富的产品和服务,其在销售数据库产品时,通常会绑定其 IaaS 层的存储、计算资源、以及相关的运维服务,这会降低企业的选择范围,增加使用成本。 服务能力不足。公有云厂商的业务重点是在云端为企业用户提供标准化的产品,而国内大量企业目前还倾向使用私有化部署的模式,应对这类需求,公有云厂商通常会与生态合作伙伴合作,将实时部署服务外包,缺乏原厂服务会造成项目质量参差不齐。此外,对于部分企业的定制化功能需求,公有云厂商通常也难以满足。 分析型数据库典型产品分类 重点关注国内
48、提供新一代分析型数据库的厂商。一方面,由于厂商底蕴、定位等方面的不同,国内外很多厂商会提供多种类型的分析型数据库产品,我们认为新一代架构的分析型数据库产品智能湖仓在处理大规模数据,支持多种分析场景方面具备领先的优势,未来将会逐步成为分析型数据库市场的主流。另一方面,由于信创政策的影响,国内企业,尤其是金融、电信、能源等国有企业在应对未来分析型数据库升级需求时,基本都会选择国内厂商的相关产品。 北京爱分析科技有限公司 034 图 14:国内外分析型数据库典型产品分类 北京爱分析科技有限公司 035 国内代表厂商分析 北京爱分析科技有限公司 036 6国内代表厂商分析 南大通用 GBase 南大通
49、用自 2004 年成立以来,专注于数据库软件的自主创新,保持产品核心技术和底层代码自主可控,旗下分析型数据库和交易型数据库产品完全依靠自研,2014 年通过引进 Informix 数据库源代码推出了高端事务型数据库,逐步形成全技术栈的数据库产品和服务。 图 15:南大通用 GBase8a 发展大事记 技术架构层面,南大通用核心产品 GBase 系列数据库随着客户需求场景的更迭,发展出多种架构来支持不同的业务需求。其中面向数据分析市场的,主要是分析型数据管理系统 GBase 8a 和统一数据平台 GBase UP。GBase 8a 以大规模并行处理、列存储,高压缩和智能索引技术为基础,具有满足各
50、个数据密集型行业日益提高的数据分析、数据挖掘、数据备份和即席查询等需求的能力。最新的超大规模集群版本 GBase 8a MPP Cluster单个集群支持部署 300 个以上的数据节点,整套集群可处理 15PB 以上数据。 GBase UP 是融合自有 MPP 数据库、事务型数据库和开源 Hadoop 生态系统的大数据平台产品,兼顾大规模分布式并行计算、稳定高效的事务处理,以及 Hadoop 的多种结构化与非结构化数据处理技术,能够适应 OLAP、OLTP 和 NOSQL 三种计算模型的业务场景。 商业模式层面,南大通用通过构筑产品上下游生态体系提升市场竞争力,将自身数据库产品与国内云平台、操