OpenSearch稀疏向量语义检索.pdf

编号:167242 PDF 13页 3.94MB 下载积分:VIP专享
下载报告请您先登录!

OpenSearch稀疏向量语义检索.pdf

1、 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。OpenSearch Neural SparseOpenSearch Neural Sparse稀疏向量语义检索耿志超K S 1 3K S 1 3软件开发工程师亚马逊云科技 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。深度学习时代,关键词搜索-向量语义搜索3TextImageVideoMusic 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。

2、k k-NNNN算法中的性能取舍OpenSearch BIGANN 数据集 1B*128 dim 性能评测https:/ msms1555 GB1555 GBIVF+PQIVF+PQ召回率延时内存占用6161%228.9228.9 msms114 GB114 GB 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。有没有一种语义检索方法,可以既能保证高相关性,又能节省存储空间、保证速度呢?5 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。深度学习模型-1稀疏编码(neuralneural sparsesparse)-鱼

3、和熊掌兼得6“北冥有鱼,其名为鲲,鲲之背不知几千里也”文档0.91,0.74,-0.03,0.23,.KNN IndexDense Vector深度学习模型-2鲲:0.34,海:0.51,北:0.11Inverted IndexSparse Vector=Term Vector 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。稀疏编码如何进行语义检索?基于如下样例:Query:whats the weather of New York now?Document:New York is raining currently基于关键词的检索(BM25)只有”Ne

4、w”,”York”可以匹配Document中所有词权重相同高效,但无法判断语义稀疏编码检索扩展token,语义权值Document 稀疏向量双模式 bi-encoder:编码doc+query doc-only:仅编码doc query只做tokenize 追求极致效率york:2.5331273,rain:2.2805467,ny:2.2376738,current:2.026359,raining:1.9437689,currently:1.9361062,weather:1.3595312,new:1.2529739,“storm”:0.9957442,“now”:0.28032921

5、2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。DocDoc-onlyonly模式,极致速度无需模型推理query仅分词权重使用IDF时延遍历更少索引query未扩展token命中更少词索引时延保持搜索精度仅3%NDCG10 代价“query仅做切分,不做推理”2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。B E I R 1 3B E I R 1 3种 数 据 集;隔 离 训 练 数 据 与 测 试 数 据OpenSearchOpenSearch稀疏编码模型:更高的搜索精度检索精度排行1.bi-encoder2.do

6、c-only 3.BM25 4.dense稀疏模型由在OpenSearch团队训练,同架构中拥有SOTA精度,均已开源opensearch-project/opensearch-neural-sparse-encoding-v1opensearch-project/opensearch-neural-sparse-encoding-doc-v1*TAS-B是一种基于BERT的稠密嵌入模型,本实验中使用HNSW进行k-NN搜索0.4450.4360.490.522BM25TAS-Bdoc-onlybi-encoder

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(OpenSearch稀疏向量语义检索.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠