OpenSearch向量检索和大模型方案.pdf

编号:149658 PDF 19页 23.33MB 下载积分:VIP专享
下载报告请您先登录!

OpenSearch向量检索和大模型方案.pdf

1、OpenSearchOpenSearch非结构数据与结构化数据相比较而言,更难让计算机理解信息可以被划分为两大类信息能够用数据或统一的结构加以表示,称之为结构化数据信息无法用数字或统一的结构表示,称之为非结构化数据特征&举例:特征&举例:不便用数据库二位逻辑表来表现的数据 图片 音频 视频 以搜索为例:需要将非结构化数据,转为结构化,再完成搜索 搜数据 搜文本 多模态信息 以关系数据库表形式管理的数据 ERP数据 OA数据 HR数据 搜图片 搜视频 搜音频OpenSearchMaxComputeOpenSearch向量检索版客户侧API 客户侧表基础信息选择数据同步来源返回结果文本数据向量数据

2、 APIOSS对象存储名称分片数更新资源场景模版通用模板图片搜索文本语义搜索字段配置embeddingclip clip 向量索引配置命名空间维度距离类型向量算法高级配置查询数据多向量查询多命名空间查询包含过滤条件查询主键查询端到端向量查询数据量大,对自动全量/实时同步 有需求成本敏感,要求资源占用低追求效果,有业务规则需求大规模向量快速导入单节点384维1亿向量,3.5小时完成全量构建索引即增即查单节点承载十亿向量,单节点实时写入TPS过万索引合并、索引压缩单节点承载数据量大高精度 高维度 多算法HNSWQC命名空间、向量 混合搜索Linear表达式过滤 边搜索边过滤参数灵活控制分布式智能搜

3、索引擎千亿数据毫秒级查询响应实时数据更新秒级可见*支持企业在没有向量数据的情况下,通过OpenSearch向量检索版,快速搭建图像搜索服务。用户可以直接导入图片源数据,在OpenSearch内部便捷完成图片向量化、向量搜索等步骤,实现以图搜图、以文搜图等多种图像检索能力。用户MaxCompute表数据、图片地址(OSS路径)MaxComputebase64编码后的图片、表数据base64编码后的图片、表数据API MaxCompute数据源API 数据源OpenSearch向量检索版 创建表-数据同步-选择数据源类型 从数据源获取图片,完成图片向量化a.获取图片的oss路径 或 base64编

4、码b.内置clip模型进行向量化 基于表数据、向量化的图片数据,构建索引 查询数据,获得结果OSSbase64编码后的图片、表数据OSS数据源OpenSearch原图片上传至OSSOSSOpenSearch向量检索:VectorStore VectorStorenavi QueryParse-Scan-MergeScantopk-FormatRequestQuery ParseMergeFormatResponseQRSScanScanScanSearcherTableOpenSearch向量检索:图检索HNSW(Hierarchical Navigable Small World),HNSW

5、 是一种分层小世界图的检索方法,上层小世界图可以看成是下层图的缩放。多层图的方式目的是为了减少搜索时距离计算和比较的次数,类似于跳表查找。OpenSearch的图算法基于HNSW实现,并在HNSW基础上从图结构和检索两个方面进行了优化。HNSW 性能进行优化,可以从图的构建和检索两个方面入手。构建阶段的优化:优化图结构,使图的出度入度更加合理,更利于 ANN 搜索检索阶段的优化:减少距离计算操作的开销,以及预测检索游走时所需的总步数,当到达预期步数时可以提前终止检索,以减少计算开销OpenSearch向量检索:图检索优化OpenSearch的图算法图结构优化*OpenSearch向量检索:图检

6、索优化OpenSearch的图算法检索阶段优化。Gist数据集,top 10Sift数据集,top 100*202308OpenSearch某开源引擎测试集ANN_GIST1M 960维产品版本向量检索版2023.8(VectorStore引擎)v2.2.12测试配置均采用 16核64G 机器规格,均采用HNSW向量算法参数配置m:64ef_construction:512m:64ef_construction:512top10 recall95查询参数:ef=142查询参数:ef=40QPS:1619.18Latency(avg):14.95msCPU负载:92.4%QPS:827.36La

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(OpenSearch向量检索和大模型方案.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠