1、例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号 宋体:最小字号 10号 等线:最小字号 12号走向多模态RAG时代张颖峰InfiniFlow 创始人CONTENTS目录1.基于语义Chunking的多模态RAG2.基于VLM的多模态RAG3.如何解决基于VLM的技术挑战4.总结和展望基于语义Chunking的多模态RAGRAG技术演进20262024202420232025摘要能RAGLLMAI普世化上下翻译能开源LLM语义可控性增强幻觉降低理解与决策多模态外挂记忆体重排序混合搜索数据清洗模型知识图谱开源模型能追
2、上OpenAI多模态成本内卷结构化/结构化统查询Agentic多模态RAG“雕花”还是?Vision EncoderPatch EmbeddingVision EncoderText DecoderObject DetectionTextText路线路线“雕花”“雕花”n嵌入式图片n文档布局n表格n字体路线路线Documents档结构识别模型眉脚段落图表格扫描?OCR字换检测NYChunking标题补全图截取表格结构识别模型流程图、饼图、柱状图Chunking多模态模型Chunking路线的路线的 RAG RAG 架构架构切块切块切块切块全文索引向量索引稀疏向量索引表格布局模型文档布局模型Em
3、bedding模型向量稀疏向量Embedding 模型Tensor Reranker问题关键词知识图谱构建数据抽取模型查询改写模型图索引LLMAI Native Databaseofflineonline答案和引用生成RAGFlowRAGFlow表格识别模型表格识别模型n 单元格边界判定n 表头信息判定n 单元格合并判定n 表格跨判定表格识别模型表格识别模型Code BookCNN EncoderCNN DecoderImageTransformer EncoderTransformer DecoderVQ-VAEEncoderDecoder档“”模型档“”模型Vision Encoder表格
4、流程图饼图柱状图Transformer EncoderTransformer DecoderHTMLText DecoderTupleJsonJson基于VLM的多模态RAG路线路线VLMVLM引https:/huggingface.co/blog/vlmstextImageVLMtextinputoutput多模态多模态VLMVLM进展进展202320242025OpenAIGPT-4VOpenAIGPT-4oGoogle Gemini FlashGoogle PaliGemmaMS Phi-3.5-visionQwen2-VL-7B-InstructAnthropic Claude早期应用
5、:VLMs for searchingOpen source/Open weights商业AccuracyPaliGemmaPaliGemmaQwen2Qwen2-VLVL-7B7BColPaliColPali基于基于VLMVLM的搜索系统的搜索系统ColPaliColPali基于基于VLMVLM的搜索系统的搜索系统ColPaliContextualized Late Interaction over PaliGemman从VLM生成Contextualized Embeddingn基于延迟交互模型捕获文本查询和图像的相似度406080AVGBiPaliColPali58.881.3提问:20
6、19年天当中平均哪个时电消耗最?延迟交互模型延迟交互模型QueryDocument PassageTransformerTransformerEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingPoolingPoolingEmbeddingEmbeddingSimilarityQueryDocument PassageTransformerMLPScoreDual EncoderCross EncoderLate Interaction EncoderTransfor