1、西南证券研究发展中心西南证券研究发展中心 通信研究团队通信研究团队 20232023年年6 6月月 人工智能专题研究 向量数据库AI时代的技术基座 1 2 4 核心要点 受大模型热潮催化,向量数据库方兴未艾。NVIDIA CEO 黄仁勋在3月的NVIDIA GTC Keynote 中,首次提及向量数据库,并强调其在构建专有大型语言模型的组织中的重要性。大模型作为新一代的 AI 处理器,提供了数据处理能力;而向量数据库提供了存储能力,成为大模型时代的重要基座。向量数据库是一种专门用于存储和查询向量数据的数据库系统,与传统数据库相比,向量数据库使用向量化计算,能够高速地处理大规模的复杂数据;并可以
2、处理高维数据,例如图像、音频和视频等,解决传统关系型数据库中的痛点;同时,向量数据库支持复杂的查询操作,也可以轻松地扩展到多个节点,以处理更大规模的数据。百亿蓝海市场蓄势待发,向量数据库空间广阔。据 Statista 数据,2021 年全球数据库市场规模为 800 亿美元,同比增长约20.3%。假设增速保持20%,预计到2025年,全球数据库市场规模将达到1658.9 亿美元。据中国信通院测算,2020年中国数据库市场规模约241亿元;预计到2025年,中国数据库市场规模将达688亿元,复合增长率为23.4%。随着AI应用场景加速落地,我们预计2025年向量数据库渗透率约为30%,则全球向量数
3、据库市场规模约为99.5亿美元,中国向量数据库市场规模约为82.56亿元。海外需求逐步爆发,新兴赛道群雄并起。目前向量数据库的赛道仍处于发展初期,随着大模型日趋成熟,越来越多玩家瞄准向量数据库的机会并选择加入赛道,呈现百花齐放的竞争格局。向量数据库的头部企业包括Zilliz、Pinecone等,目前的主要的客户还是互联网厂商随着大模型应用的不断拓宽,预计向量数据库的公司将受到更多投资者青睐,迎来投资井喷期。Zilliz目前已与Nvidia、IBM、Mircosoft等公司展开合作,在一级市场获得1.13亿美元投资;Pinecone先后上架Google云和AWS,逐步打开市场,在一级市场获得1.
4、38亿美元投资。风险提示:AI技术更新迭代缓慢、专业领域落地效果不及预期、市场开拓不及预期等风险。4UfWuYpXzWmWkZrNmRbR8Q8OpNmMoMmPiNpPtNfQsQpO7NqRpPxNqMtPMYrRrN2 目 录 1 向量数据库AI浪潮下崛起新星 2 市场广阔,百花齐放 3 国内外向量数据库公司巡礼 1.1 数据库分类 1.2 向量数据库的主要应用场景 1.1 数据库分类 信息来源:数据库分类及简介,数据库有哪些类型?如何根据应用场景选择?终于有人讲明白了,IDC The Digital Universe,西南证券整理 关系型数据库(SQL)vs.非关系型数据库(NoSQL
5、)关系型数据库(SQL)定义:依据“一对一、一对多、多对多”的关系模型创建数据库,并将数据以二维表格的形式储存,各个表之间建立关系,通过这些关联的表格间分类、合并、连接或选取等运算来实现数据的管理。发展情况:1960s开始在航空领域发挥作用;因为其良好的一致性以及通用的关系型数据模型接口,使用范围广泛。常见类型:MySQL、Oracle、PostgreSQL等。优点:数据安全(磁盘)、数据一致性、二维表结构直观,易理解、使用SQL语句操作非常方便,可用于比较复杂的查询 缺点:读写性能较差、不擅长处理较复杂的关系 非关系型数据库(NoSQL)起源:2000年左右,互联网应用兴起,需要支持大规模的
6、并发用户,并保持永远在线。一方面,关系型数据库无法支持如此大规模数据和访问量,升级CPU、内存和硬盘可以提高性能,但呈现明显的收益递减效应。另一方面,数据库在机器间的迁移非常复杂,需要较长的停机时间。NoSQL因此应运而生,有效补充了SQL的适用范围,NoSQL在Web应用领域提供了高可用性和可扩展性。特点:没有固定的表结构、数据之间不存在表与表之间的关系、数据之间可以是独立的、NoSQL可用于分布式系统上。类型:数据类型多样,针对不同的数据类型,出现了不同的 NoSQL,如向量数据库。非关系型数据库是关系型数据库的有效补充 图:关系型数据库和非关系型数据库规模对比情况 3 1.1.1 数据库