《6-尚长军-向量数据库关键技术及应用-2023中国PG生态大会new.pdf》由会员分享,可在线阅读,更多相关《6-尚长军-向量数据库关键技术及应用-2023中国PG生态大会new.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、向量数据库关键技术及应用演讲人:尚长军公司:中兴通讯股份有限公司 数据库系统工程师CONTENT向量数据库简介13中兴通讯向量数据库向量数据库关键技术2向量数据库向量数据库被应用于大模型训练过程中。在训练大规模的深度学习模型时,通常需要处理大量的训练数据,并进行复杂的计算和优化过程。而向量数据库通过有效的索引结构和查询优化技术,能够提供快速的相似度搜索和数据检索,加速模型训练、推断和决策过程。向量数据:是指具有多个维度的数值向量组成的数据集合,其典型结构是一个一维数组,其中的元素是数值(通常是浮点数)。这些数值表示对象或数据点在多维空间中的位置、特征或属性。向量数据的长度取决于所表示的特征维度
2、。下面是一个简单的例子:有三个水果:苹果、香蕉和葡萄。用向量数据表示它们的颜色和大小特征。可以将颜色分为红、绿、蓝三个通道,将大小分为小、中、大三个类别。因此,可以用一个包含 6 个数值的向量表示每个水果的特征。在这个例子中,每个水果都被表示为一个 6 维向量。前三个数值表示颜色信息(红、黄、蓝),后三个数值表示大小信息(小、中、大)。向量数据库:是一种针对向量数据(或高维数据)的专门设计和优化的数据库系统。它与传统的关系型数据库或文档数据库不同,通过将数据表示为向量的形式,能够提供更高效的存储、查询和分析能力。苹果(红色,中等大小):1,0,0,0,1,0香蕉(黄色,大):0.5,0.5,0
3、,0,0,1葡萄(紫色,小):0.5,0,0.5,1,0,0向量数据库向量检索向量检索又称为近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS),是一种在大规模高维向量数据中寻找与给定查询向量相似的向量的技术。向量检索在许多AI领域具有广泛的应用,如图像检索、文本检索、语音识别、推荐系统等。PictureVoiceTextUser Behavior深度学习0.71,056,.,0.730.27,0.45,.,0.680.03,0.65,.,0.49非结构化数据特征向量向量检索向量EmbbedingEmbedding将数据映射到多维向量空间,将数据进
4、行向量化。Object 1Object 2Object 3Set of Objects0.40.10.3-0.80.60.3-0.40.20.9-Objects as VectorEmbeddingCONTENT向量数据库简介13中兴通讯向量数据库向量数据库关键技术2向量数据库关键技术:树形索引样本数据:T=(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)(8,1)(9,6)(5,4)(2,3)(4,7)(7,2)246824681010(7,2)(5,4)(9,6)(2,3)(4,7)(8,1)典型的树形结构如KD树(K-dimension tree),是对数据点在k维
5、空间(如二维(x,y),三维(x,y,z),k维(x,y,z.)中进行划分的一种数据结构,它按照一定的规则将整个空间划分为特定的几个部分,然后在特定空间的部分内进行相关搜索操作。(7,2)(2,3)(4,7)(5,4)(9,6)(8,1)向量数据库关键技术:倒排索引倒排索引是一种将词项映射到文档的数据结构。倒排索引源于实际应用中需要根据属性的值来查找记录,即不是由记录来确定属性值,而是由属性值来确定记录,因而称为倒排索引。Term:word1Value:docid1docid4Term:word2Value:docid1docid3Term:word3Value:docid1docid2Ter
6、m:word4Value:docid2docid3doc1doc2doc3doc4Term Index向量数据库关键技术:局部敏感哈希索引局部敏感哈希索引(LSH)的设计思想是让相邻的点落入同一个“桶”,在进行最近邻搜索时,仅需要在一个桶内,或相邻几个桶内的元素中进行搜索即可。假如保持每个桶中的元素个数在一个常数附近,就可以把最近邻搜索的时间复杂度降低到常数级别。KeysHash FunctionHash BucketsValues向量数据库关键技术:图索引基于图的结构进行快速检索的主要思想是通过对图中邻居节点连线(特别是长程连接,即所谓高速公路)快速缩小搜索范围,加快检索速度,其原理类似Re