《2-刘超-智能文档时代 多模态大模型 (1).pdf》由会员分享,可在线阅读,更多相关《2-刘超-智能文档时代 多模态大模型 (1).pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:刘超智能文档智能文档时时代:多模代:多模态态大模型大模型驱驱动动的数据的数据处处理与治理革新理与治理革新目录目录0 1背景与痛点背景与痛点0 2传统传统OCROCR技术栈概览技术栈概览0 3训练成本训练成本0 4多模态大模型多模态大模型崛起崛起0 5行业行业落地案例落地案例0 6多模态多模态大模型落地大模型落地0 70 8未来趋势未来趋势浅浅谈谈Hybrid PipelineHybrid Pipeline0 1 背景与痛点背景与痛点数据量爆炸数据量爆炸:全球数据总量 2025年预计 181181ZBZB,年复合增速约23%业务业务数字化加速数字化加速:招投标、财务报销、合规审计等流程
2、日益依赖高质量文档解析技技术术拐点出拐点出现现:VisionLanguage大模型(GPT4V、Gemini1.5 等)能“看懂”排版与语义数据洪流数据洪流80%20%比例非结构化结构化识别理解问答(VQA)传统传统OCR的挑战的挑战语义语义理解理解缺失缺失:只能“识字”,无法理解上下文割裂式流水线割裂式流水线:OCR 版面解析 规则抽取,多段 API 拼接,误差叠加数据孤岛现象:数据孤岛现象:企业文档分散存储,格式多样跨模态信息割裂:文本、图像、表格等信息缺乏有效整合多模多模态态大模型的技大模型的技术术突破突破统统一表征学一表征学习习:将视觉、排版、语义融于单模型,直接输出结构化结果、摘要或
3、问答告别“N段流水线”。上下文上下文长长度度破局破局:Gemini1.5 等模型上下文窗口1Mtokens,可处理百页文档而无需拆分。效果效果跃跃升升:在 DocVQA 等基准上,多模态 LLM 已逼近或超越人类水平,表格与图像问答均显著领先传统 OCR+NLP 组合,无需专门训练02传统传统OCROCR技术栈概览技术栈概览 扫扫描描 /图图像采集像采集 受限于成像质量:光照不均、噪声、透印等问题会直接影响后续精度 预处预处理(理(PreprocessingPreprocessing)版面分析版面分析&分割(分割(LayoutLayoutAnalysis/SegmentationAnalysi
4、s/Segmentation)特征提取(特征提取(FeatureFeatureExtractionExtraction)字符字符/词识词识别(别(Classification/RecognitionClassification/Recognition)后后处处理(理(PostprocessingPostprocessing)概览概览局限性局限性 布局敏感 结构/语义信息丢失 规模化受限 扩展成本高复杂板式/历史档案缺失语义理解多个模型协作,编排部署难度大跨行业/语种迁移难03多模态大模型能力多模态大模型能力端到端端到端OCR free识别识别 GPT 4o 在 Context Independ
5、ent OCR 实验中,当分辨率 300ppi 时与 Tesseract 持平;低于 150ppi 精度下滑 20%+GOT-OCR 与 Nougat 把文字、表格、LaTeX 公式一次性生成 Markdown/TikZ,免去分割与后处理结结构、构、语义语义、空、空间间三位一体三位一体 SmolDocling 用 DocTags 把元素内容+坐标序列化,256M 参数即可还原多领域版面 DocLLM 仅通过 bounding box 文本对对齐即可迁移到发票、表单等复杂布局,无需图像编码器,加速 3 4超超长长上下文与跨上下文与跨页页推理推理 Gemini1.5Pro 单输入 1M+token
6、s,可一次“读完”40MB PDF 并回答细粒度问题 GPT 4o 官方 API 支持 128k tokens,配合 RAG 可跨多文档关联引用基准基准测试测试 MMDocBench(2024)覆盖 Text/Chart QA、表格定位、KIE 等 48 子任务;GPT 4o 在 15 主任务中夺 8 项第一 GPT 4o vs 专用 CV 模型:在 ImageNet1K 分类落后 6 8pp,但在文字定位与表格理解领先 10 15pp传统传统OCR vs Multimodal LLM 分治思想 vs 整体理解 单