张颖峰--走向多模态RAG时代.pdf

编号:615404 PDF 43页 9.83MB 下载积分:VIP专享
下载报告请您先登录!

张颖峰--走向多模态RAG时代.pdf

1、例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号 宋体:最小字号 10号 等线:最小字号 12号走向多模态RAG时代张颖峰InfiniFlow 创始人CONTENTS目录1.基于语义Chunking的多模态RAG2.基于VLM的多模态RAG3.如何解决基于VLM的技术挑战4.总结和展望基于语义Chunking的多模态RAGRAG技术演进20262024202420232025摘要能RAGLLMAI普世化上下翻译能开源LLM语义可控性增强幻觉降低理解与决策多模态外挂记忆体重排序混合搜索数据清洗模型知识图谱开源模型能追

2、上OpenAI多模态成本内卷结构化/结构化统查询Agentic多模态RAG“雕花”还是?Vision EncoderPatch EmbeddingVision EncoderText DecoderObject DetectionTextText路线路线“雕花”“雕花”n嵌入式图片n文档布局n表格n字体路线路线Documents档结构识别模型眉脚段落图表格扫描?OCR字换检测NYChunking标题补全图截取表格结构识别模型流程图、饼图、柱状图Chunking多模态模型Chunking路线的路线的 RAG RAG 架构架构切块切块切块切块全文索引向量索引稀疏向量索引表格布局模型文档布局模型Em

3、bedding模型向量稀疏向量Embedding 模型Tensor Reranker问题关键词知识图谱构建数据抽取模型查询改写模型图索引LLMAI Native Databaseofflineonline答案和引用生成RAGFlowRAGFlow表格识别模型表格识别模型n 单元格边界判定n 表头信息判定n 单元格合并判定n 表格跨判定表格识别模型表格识别模型Code BookCNN EncoderCNN DecoderImageTransformer EncoderTransformer DecoderVQ-VAEEncoderDecoder档“”模型档“”模型Vision Encoder表格

4、流程图饼图柱状图Transformer EncoderTransformer DecoderHTMLText DecoderTupleJsonJson基于VLM的多模态RAG路线路线VLMVLM引https:/huggingface.co/blog/vlmstextImageVLMtextinputoutput多模态多模态VLMVLM进展进展202320242025OpenAIGPT-4VOpenAIGPT-4oGoogle Gemini FlashGoogle PaliGemmaMS Phi-3.5-visionQwen2-VL-7B-InstructAnthropic Claude早期应用

5、:VLMs for searchingOpen source/Open weights商业AccuracyPaliGemmaPaliGemmaQwen2Qwen2-VLVL-7B7BColPaliColPali基于基于VLMVLM的搜索系统的搜索系统ColPaliColPali基于基于VLMVLM的搜索系统的搜索系统ColPaliContextualized Late Interaction over PaliGemman从VLM生成Contextualized Embeddingn基于延迟交互模型捕获文本查询和图像的相似度406080AVGBiPaliColPali58.881.3提问:20

6、19年天当中平均哪个时电消耗最?延迟交互模型延迟交互模型QueryDocument PassageTransformerTransformerEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingPoolingPoolingEmbeddingEmbeddingSimilarityQueryDocument PassageTransformerMLPScoreDual EncoderCross EncoderLate Interaction EncoderTransfor

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张颖峰--走向多模态RAG时代.pdf)为本站 (鲁大师) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠