《余俊晖-多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式.pdf》由会员分享,可在线阅读,更多相关《余俊晖-多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式.pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:余俊晖 360人工智能研究院 高级算法工程师多模态多模态GraphRAGGraphRAG初探:初探:文档智能文档智能+知识图谱知识图谱+大模型结合范式大模型结合范式文档智能解析技术链路与文档层级关系构建01多模态图索引构建与多模态检索生成流程02知识图谱解决chunk之间关联以及细粒度问题03文档多模态RAG相关工作进展04目 录CONTENTS文档智能解析技术链路与文档智能解析技术链路与文档层级关系构建文档层级关系构建RAG vs RAG vs GraphRAGGraphRAG智能文档理解技术演变智能文档理解技术演变文档解析整体流程文档解析整体流程OCR-FreeOCR-Free(多
2、模态)多模态)PDF-ParsePDF-ParseOCR-PIPELINEOCR-PIPELINE文档解析整体流程文档解析整体流程方案方案优点优点缺点缺点OCR-PIPELINE(如:ppstructure、mineru等)1、可输出Bouding box信息,以及版式标签信息等;2、模块灵活,可单独做优化3、支持CPU离线部署4、能支持扫描版文档1、当前方案依赖计算机视觉方案,泛化性较差泛化性较差;2、精度不高。版式分析、表格解析、段落合并等效果均有改进空间;3、CPU环境下速度较慢,涉及模块多,pipeline式较慢OCR-FREE(如:olmOCR、mistral OCR等)1、直接端到
3、端,不需要其他复杂逻辑2、能处理扫描版文档1、不支持区域分块,不输出Bounding box信息;2、不支持CPU离线部署;3、速度非常慢,消耗速度非常慢,消耗GPUGPU资源资源,在文档页面很多时,处理速度难以忍受;4、部署成本较高,针对较长文本情况,显存占用大;5、存在幻觉幻觉问题,容易出现多字、少字,生成内容与原文不一致;6、无法处理表格图片,图表,无法做截图存储;PDF2TEXT(如:pdfminer、fitz等)1、速度十分快速2、在可编辑场景下OCR的文字信息识别较为准确1、不支持扫描版本文档处理2、无法正确处理图片、表格等,整体质量稍差一些;文档解析之布局分析文档解析之布局分析核
4、心问题核心问题:版式分析模型与文档类型强相关,本质上需要文档标注的多样性以及粒度控制版式分析模型与文档类型强相关,本质上需要文档标注的多样性以及粒度控制页面版式分析是一个目标检测任务目标检测任务,用于对文档进行区域划分,核心在于标签的定义:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释、公式等,也可以是化学式、分子结构式等。代表参考:https:/ 2024 Competition on Multi-line Mathematical Expressions Recognition,2024国际模式识别会议(ICPR 2024)人工智能、模式识别和机器学习赛道“多行数学表达式识别
5、任务”竞赛中取得冠军。模型架构:VisionEncoderDecoderModel,Encode端:Vit+Decode端:TrOCR训练方式:预训练+微调训练策略:早停机制防止过拟合拟合目标:ExactMatch(精确匹配)、EditDistance(编辑距离)文档解析文档解析之公式之公式解析解析-360-360LatexOCR-LatexOCR-HDNetHDNet复杂公式(MER)的解析常常因为细粒度细节的错误而受到影响。为了解决这一问题,提出了层次细节聚焦识别网络(提出了层次细节聚焦识别网络(HDNetHDNet),包含了层),包含了层次子公式模块,专注于精确处理公式细节,从而显著提高
6、次子公式模块,专注于精确处理公式细节,从而显著提高MERMER性能性能。Enhancing Complex Formula Recognition with Hierarchical Detail-Focused Network(ICASSP2025ICASSP2025接收接收)文档解析之图表解析文档解析之图表解析-Data-DataChartParserChartParser图表中包含有丰富信息,可以做:图表摘要,给定图片图片,输出关于该图表的摘要。图表信息抽取,将图表还原成渲染前的底层数据。对于柱状图等数值图,目前已经有了很多将柱状图转为底层json_dict的方案,比如onechart(