1、 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。OpenSearch Neural SparseOpenSearch Neural Sparse稀疏向量语义检索耿志超K S 1 3K S 1 3软件开发工程师亚马逊云科技 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。深度学习时代,关键词搜索-向量语义搜索3TextImageVideoMusic 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。
2、k k-NNNN算法中的性能取舍OpenSearch BIGANN 数据集 1B*128 dim 性能评测https:/ msms1555 GB1555 GBIVF+PQIVF+PQ召回率延时内存占用6161%228.9228.9 msms114 GB114 GB 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。有没有一种语义检索方法,可以既能保证高相关性,又能节省存储空间、保证速度呢?5 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。深度学习模型-1稀疏编码(neuralneural sparsesparse)-鱼
3、和熊掌兼得6“北冥有鱼,其名为鲲,鲲之背不知几千里也”文档0.91,0.74,-0.03,0.23,.KNN IndexDense Vector深度学习模型-2鲲:0.34,海:0.51,北:0.11Inverted IndexSparse Vector=Term Vector 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。稀疏编码如何进行语义检索?基于如下样例:Query:whats the weather of New York now?Document:New York is raining currently基于关键词的检索(BM25)只有”Ne
4、w”,”York”可以匹配Document中所有词权重相同高效,但无法判断语义稀疏编码检索扩展token,语义权值Document 稀疏向量双模式 bi-encoder:编码doc+query doc-only:仅编码doc query只做tokenize 追求极致效率york:2.5331273,rain:2.2805467,ny:2.2376738,current:2.026359,raining:1.9437689,currently:1.9361062,weather:1.3595312,new:1.2529739,“storm”:0.9957442,“now”:0.28032921
5、2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。DocDoc-onlyonly模式,极致速度无需模型推理query仅分词权重使用IDF时延遍历更少索引query未扩展token命中更少词索引时延保持搜索精度仅3%NDCG10 代价“query仅做切分,不做推理”2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。B E I R 1 3B E I R 1 3种 数 据 集;隔 离 训 练 数 据 与 测 试 数 据OpenSearchOpenSearch稀疏编码模型:更高的搜索精度检索精度排行1.bi-encoder2.do
6、c-only 3.BM25 4.dense稀疏模型由在OpenSearch团队训练,同架构中拥有SOTA精度,均已开源opensearch-project/opensearch-neural-sparse-encoding-v1opensearch-project/opensearch-neural-sparse-encoding-doc-v1*TAS-B是一种基于BERT的稠密嵌入模型,本实验中使用HNSW进行k-NN搜索0.4450.4360.490.522BM25TAS-Bdoc-onlybi-encoder