1、Elasticsearch-AI驱动的搜索引擎刘晓国|Elastic刘晓国Elastic 社区首席布道师新加坡国立大学硕士,西北工业大学本硕。曾就职于新加坡科技,康柏电脑,通用汽车,爱立信,诺基亚,Linaro 非营利组织(Linux forARM),Ubuntu,Vantiq等企业。从事过电脑设计,汽车电子,计算机操作系统,通信,云实时事件处理等行业。从爱立信开始,诺基亚,Ubuntu 到现在的 Elastic 从事社区工作有将近 20 年的经历。喜欢分享自己所学到的知识。帮助别人就是帮助自己。希望和大家一起分享及学习。目 录CONTENTSI.智能时代的搜索需求II.Elasticsear
2、ch 向量搜索及最新进展III.RAG 实现原理IV.使用 Elasticsearch 在企业搜索中的案例分享智能时代的搜索需求PART 01AI 时代对搜索提出了新要求过去用户需求现在用户需求全文搜索结构化搜索聚合统计复杂混合搜索排序调优分词向量搜索向量和经典搜索的混合语义搜索模型重排序RAG语义搜索根据搜索查询的意图和上下文含义检索结果,而不仅仅是关键字how to set up elasticsearch ml?machine learningsite:elastic.coconfigureinstallPrelertanomaly detectiongetting startedmac
3、hine learning settings词汇搜索结果how to set up elasticsearch ml?语义搜索结果how to set up elasticsearch ml?通过文字搜索找到图片:覆盖雪的山峰通过图像比较找到相似的图片如何在 Elastic 中实现图片相似度搜Elasticsearch 向量搜索及最新进展PART 02有两种向量模型SPARSE VectorToken Weighted PairsDENSE Vector一长串数字,每个维度一个数十万至数百万的标记词汇量Token 加权对Token:Weight每个文档-仅存储 N 个最高权重的标记(其余为 0
4、)通过 DotProduct 实现语义搜索与密集向量搜索相比,内存要求更低稀疏模型可以实现“后期交互”在数据集上进行训练,以获得较高的“域内”性能低维(312,512,1536,.)捕捉语义对于相似性和聚类有用多模式支持TextImageAudio较大的数据集占用大量内存可解释性差文本扩展评分droidsyourelookingforandroidselectricsheeprobot#oidscartoonandroidlistandroiddreamrobotcartoonsheeplambofdogalaxy2.09.740.08.62.74.862.021.071.041.162.46
5、(.088*2.02)+(.74*1.07)+(.62*1.04)1.61Score=Stored in Elastic向量搜索概念架构使用向量最近邻生成搜索排名向量搜索支持的应用程序架构了解 5 个关键组件注注:inferenceAPI 不适合图像搜索步骤 1:设置机器学习模型$eland_import_hub_model-url https:/cluster_URL-hub-model-id BERT-MiniLM-L6-task-type text_embedding-startBERT-MiniLM-L6选择合适的模型将模型加载到集群管理模型步骤二:数据摄取和嵌入生成_id:produ
6、ct-1234,product_name:Summer Dress,description:Our best-selling,Price:118,color:blue,fabric:cotton,desc_embedding:0.452,0.3242,Standard field indexing for non-vector typesPOST/_docPOST/_docEncoding via Inference ProcessorSource data_id:product-1234,product_name:Summer Dress,description:Our best-selli