《全球计算联盟GCC:2025向量数据库白皮书(56页).pdf》由会员分享,可在线阅读,更多相关《全球计算联盟GCC:2025向量数据库白皮书(56页).pdf(56页珍藏版)》请在三个皮匠报告上搜索。
1、?Research?Report?on?the?Development?of?Vector?Database?1?研?(?)?盟?研?2?研?.1 Research?Report?on?the?Development?of?Vector?Database.1?.4 1.1?.4 1.2?.4?.7 2.1?.7 2.2?.7 2.3?.12 2.4?.16 2.5?.18?.21 3.1?.22 3.2?.23 3.3?.24 3.4?.26?.27 4.1?.27 4.2?的?.27 4.3?.28 4.4?.30 3 4.5?.31 4.6?.31?.34 5.1?.34 5.2?.35?
2、.38 6.1?.38 6.2?.40?.49 7.1?.49 7.2?.50 7.3?.51?.53?1.1?1.1?研?吐?研?研?研?研 IDC?2025?研?175ZB?务 80%?副?研?1?研?研?撑练?B+?割?研?研?研?研?研?割?务?研?务?研?研?1.1.2 2?研?AI?1 1.2.1.2.1?2020?-2012017 7?研?Embedding?研?研?研?研?Word2Vec?务?BERT?副?1 1.2.2.2 2?20182018?-20232023?2010?去务?研?去?研?研?FAISS?去?HNSW?厅?研?RAG?研?割?务?研?AI?研?务?研?撑
3、?-?研?去?研?!?研?研?BM25?Milvus?Vearch?研?FAISS?模?研?研?的?研?研?Milvus?Vearch?AI?GitHub?HNSW?40%?GPU?属?QPS?去?研?导?的?1 1.2.2.3 3?20202424?-?研?空?Zilliz?研?研?割?Zilliz?研?的?IT?研?尽?Vastbase?V100?研?/?筛?AI?openGauss?空openGauss?DataVec?研?空?研?研?QPS?RecallK?研?割?研?研?导?割?匹?研?筛?研?筛?研?2.1?2.1?向量是同时具有方向和大小的量,其在数学上表示为多为空间中的坐标,比
4、如 N 维空间中的向量就是一个具有 N 个维度的坐标,(a!,a,a#,.)。向量的大小(也称为长度或者膜)通过公式&!+#+.计算获得。向量的方向通过从原点到坐标点连线的夹角表示,两个向量 A 和 B 的夹角可以通过公式cos$!%|%|计算获得。向量嵌入技术广泛应用于多模态非结构化数据检索任务中,通过将原始数据嵌入编码到同一个空间中,使之具有等长同类型的向量标签,并且数据之间的语义相似度可以通过向量之间的相似度计算进行度量。比如:通过表征训练可以让具有相同含义的单词,句子,片段,甚至是文档,图片等实体具有更高相似度的嵌入向量;反之,具有不同语义的实体的嵌入向量相似度较低。向量之间的相似度特
5、征是向量数据库的数学理论保证,而统数据库只能进行准确查询和精确匹配的局限,这一特征传使得向量数据库能够具备语义匹配和多模查询处理的能力。在实际应用场景中,海量的文本/图片等数据(PB 级)直接存放在文件系统中,直接对其进行查询和检索性能低下,因此用户会首先应用先进的嵌入学习模型对于文本/图片进行嵌入编码,然后将相应的编码向量导入到向量数据库中进行管理。通过这种手段,利用向量作为数据的签名,既可以降低数据库中的数据维护成本,也可以显著提高文本/图片相似查询的性能。2.2.2 2?Vector?Space?Model,?VSM?Embedding?VSM?务?研务?2.2.12.2.1?(Word
6、?Embeddings?务?Word2Vec?CBOW?副?务?OOV?割?Skip-gram?务?副?GloVe?-?-?副?Word2Vec?匹?FastText?subword?n-gram?n-gram?OOV?2.2.2?2.2.2?/?/?的?NLP?1)?务?average?pooling?max?pooling?吐?TF-IDF?告?撑练?2)2)?Doc2Vec?Doc2Vec?Word2Vec?的?PV-DM?PV-DBOW?ID?Transformer?Transformer?副?BERT 务?CLS?务?Token?CLS?Token?Sentence-BERT?(SB