当前位置:首页 > 报告详情

张颖峰--走向多模态RAG时代.pdf

上传人: 鲁** 编号:615404 2025-03-03 43页 9.83MB

1、例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号 宋体:最小字号 10号 等线:最小字号 12号走向多模态RAG时代张颖峰InfiniFlow 创始人CONTENTS目录1.基于语义Chunking的多模态RAG2.基于VLM的多模态RAG3.如何解决基于VLM的技术挑战4.总结和展望基于语义Chunking的多模态RAGRAG技术演进20262024202420232025摘要能RAGLLMAI普世化上下翻译能开源LLM语义可控性增强幻觉降低理解与决策多模态外挂记忆体重排序混合搜索数据清洗模型知识图谱开源模型能追

2、上OpenAI多模态成本内卷结构化/结构化统查询Agentic多模态RAG“雕花”还是?Vision EncoderPatch EmbeddingVision EncoderText DecoderObject DetectionTextText路线路线“雕花”“雕花”n嵌入式图片n文档布局n表格n字体路线路线Documents档结构识别模型眉脚段落图表格扫描?OCR字换检测NYChunking标题补全图截取表格结构识别模型流程图、饼图、柱状图Chunking多模态模型Chunking路线的路线的 RAG RAG 架构架构切块切块切块切块全文索引向量索引稀疏向量索引表格布局模型文档布局模型Em

3、bedding模型向量稀疏向量Embedding 模型Tensor Reranker问题关键词知识图谱构建数据抽取模型查询改写模型图索引LLMAI Native Databaseofflineonline答案和引用生成RAGFlowRAGFlow表格识别模型表格识别模型n 单元格边界判定n 表头信息判定n 单元格合并判定n 表格跨判定表格识别模型表格识别模型Code BookCNN EncoderCNN DecoderImageTransformer EncoderTransformer DecoderVQ-VAEEncoderDecoder档“”模型档“”模型Vision Encoder表格

4、流程图饼图柱状图Transformer EncoderTransformer DecoderHTMLText DecoderTupleJsonJson基于VLM的多模态RAG路线路线VLMVLM引https:/huggingface.co/blog/vlmstextImageVLMtextinputoutput多模态多模态VLMVLM进展进展202320242025OpenAIGPT-4VOpenAIGPT-4oGoogle Gemini FlashGoogle PaliGemmaMS Phi-3.5-visionQwen2-VL-7B-InstructAnthropic Claude早期应用

5、:VLMs for searchingOpen source/Open weights商业AccuracyPaliGemmaPaliGemmaQwen2Qwen2-VLVL-7B7BColPaliColPali基于基于VLMVLM的搜索系统的搜索系统ColPaliColPali基于基于VLMVLM的搜索系统的搜索系统ColPaliContextualized Late Interaction over PaliGemman从VLM生成Contextualized Embeddingn基于延迟交互模型捕获文本查询和图像的相似度406080AVGBiPaliColPali58.881.3提问:20

6、19年天当中平均哪个时电消耗最?延迟交互模型延迟交互模型QueryDocument PassageTransformerTransformerEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingPoolingPoolingEmbeddingEmbeddingSimilarityQueryDocument PassageTransformerMLPScoreDual EncoderCross EncoderLate Interaction EncoderTransfor

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了多模态RAG技术的发展及其在处理大数据平台和架构中的应用。首先,介绍了基于语义Chunking的多模态RAG,然后详细阐述了基于VLM(Vision Language Model)的多模态RAG及其技术挑战。文章指出,VLM技术在多模态文档处理中具有重要作用,但同时也面临着如Tensor复杂度等挑战。接着,分析了多模态RAG的总结和展望,包括RAG技术的演进、多模态成本内卷、结构化/非结构化统一查询等。最后,文章提出了基于Infinity数据库的多模态RAG解决方案,并对未来多模态RAG的发展进行了展望。 关键数据: 1. RAG技术演进:2023年至2026年,开源模型能力逐渐追上OpenAI,多模态成本内卷,结构化/非结构化统一查询等。 2. VLM多模态RAG:2023年至2025年,OpenAIGPT-4、Google Gemini Flash、Anthropic Claude等早期应用,以及VLMs在搜索、文档检索等方面的进展。 3. 基于Infinity数据库的多模态RAG:采用二值量化、Hamming距离替换点积等方法优化,提高查询效率。 总结: 本文从多个角度探讨了多模态RAG技术的发展及其在实际应用中的挑战和解决方案。通过对基于语义Chunking和VLM的多模态RAG的介绍,以及针对技术挑战的讨论,文章展示了多模态RAG在处理大数据平台和架构中的潜力。同时,提出了基于Infinity数据库的多模态RAG解决方案,为未来多模态RAG技术的发展提供了新的思路。
"大数据平台如何支撑多模态RAG技术?" "VLM技术在多模态RAG中的挑战与解决方案是什么?" "未来多模态RAG的发展趋势和前景如何?"
客服
商务合作
小程序
服务号
折叠