谢宇-基于VectorDB的AI实践.pdf-三个皮匠报告

1、例：支撑海量数据的大数据平台与架构例：茹炳晟例：腾讯Tech Lead，腾讯研究院特约研究员正文要求：微软雅黑：最小字号 8号宋体：最小字号 10号等线：最小字号 12号基于VectorDB的AI实践谢宇腾讯云向量数据库技术负责人谢宇腾讯云向量数据库技术负责人从事数据库领域开发16年，深入理解多种数据库的技术和客户最佳实践，熟悉国内外云服务和数据产品，擅长数据库生态建设。现负责腾讯云向量数据库技术，致力于在AI时代打造非结构化数据、半结构化数据、结构化数据的数据枢纽，帮助客户挖掘更多的数据价值以取得业务成功。CONTENTS目录1.VectorDB的应用场景2.基于VectorDB的RAG

2、效果提升实践3.VectorDB的技术原理和应用实践01VectorDB的应用场景向量数据库在AI中的应用场景举例RAG知识库语义检索跨模态检索推荐模型训练图搜非结构化数据与结构化数据的枢纽AI应用传统应用向量数据库非结构化数据在AI的知识外挂VectorDB02基于VectorDB的RAG效果提升实践入门易、效果难开源框架VDB单文档Top10.3850.8单文档Top30.6840.89多文档Top10.290.73多文档Top30.360.87多文档Top50.410.9多文档Top100.460.918召回率 90%+基于内部2000+文档测试难点从复杂文档解析开始视觉识别模型识别Ba

3、d case举例效果提升还会遇到那些难点数据处理阶段知识本身完整性、区分度知识点之间的冲突性处理如何正确的识别知识内容语义拆分、长度拆分Embedding和入库Embedding效果和性能通用模型和单模型局限性Embedding不敏感数据向量索引的选型和调参检索阶段纯聊天/切话题/非知识太简单/复杂/抽象/具体无结果/无效结果关联或冲突的上下文/知识总结阶段单总结/迭代总结领域内用语习惯提示工程最佳实践降噪/拒答文档识别与拆分-TencentVDB在RAG的实践Embedding前的数据预处理-影响空间分布语义相似的文本在空间中彼此接近runjumptreeflowerdograbbitcat

4、单个知识点的增强Embedding结构化和半结构化数据处理Embedding模型不仅会影响的效果还会影响检索性能以及量化成本的上限补齐信息增强Chunk跨文章区分度将结构化和半结构化数据自然语言组织索引选择-影响召回效果FALT暴搜HNSW图搜IVF倒排图搜+磁盘HybridSearch混合检索-完善召回Dense VectorDense+Sparse VectorDense+Token vectorRFF、Weight、xxx-Reranker业务重排和其它处理语义单路语义检索多路语义检索文档不同部分Embedding使用不同的模型Embedding多模态Embedding关键字基于单词的检

5、索基于输入文本拆词检索多路关键词检索混合图片相似性+标签单词检索文本语义+具体数据提示工程举例-让总结效果更好效果提升是一个较为复杂的工程35%Demo简单快速构建最终效果=文本处理效果*Embedding模型能力*检索效果*LLM效果*业务深入优化65%基础优化Embedding模型选型索引选型和调优文本数据处理增强 80%深水区水位线LLM模型选型检索过程：增强、精炼、上下文多路召回Reranking：算法、模型、业务 90%上生产标准知识关联、冲突复杂文档、知识组织Prompt engineeringFine-tune：LLM、Embedding意图、话题、拒答、多轮对话03Vector

6、DB技术原理和应用实践选择最合适的索引召回率性能成本成本平衡点不同索引“召回率”不同不同索引“性能”差距大不同索引“成本”偏差大到目前为止没有一种向量索引可以解决所有场景的问题到目前为止没有一种向量索引可以解决所有场景的问题FLAT索引-暴搜Recall=100%Search性能：差写性能：高等价于内存中数组逐个遍历算分FP32/FP16/BF16/int8/BinaryHNSW索引-图搜Recall=高检索性能：高写性能：普通通过多分片，实现海量数据水平扩展FP32/FP16/BF16/int8/BinaryIV

谢宇-基于VectorDB的AI实践.pdf

相关报告