《黄佳-大模型+数据资产变现RAG 驱动企业智能化实践案例.pdf》由会员分享,可在线阅读,更多相关《黄佳-大模型+数据资产变现RAG 驱动企业智能化实践案例.pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:黄佳Visuals Support:黄佳研究员/技术图书作者/极客时间专栏作者极客时间 LangChain实战课极客时间 RAG进阶训练营极客时间RAG训练营010203040506为什么我们仍然在谈论RAGRAG落地痛点及优化思路企业文档合规性问答系统落地实践医疗术语标准化系统的落地实践知识图谱在医疗术语标准化系统中的应用MCP和A2A时代的RAG011.人类与大模型直接对话2.大模型进行知识检索3.大模型进行自主推理02落地难点文档的导入和解析(图、表)如何将相关联的内容整体切片或建立起相关联的索引如何处理大规模、分布式向量数据的精细化设计如何构建程序代码的检索系统图数据库和知识图
2、谱和系统的结合如何设计有权限的系统RAG寻找瓶颈点寻找瓶颈点 系 问 图 合 问 问 问 问 问 问 性文档 大模型 问 大模型 问 文档 文档 文档 时 性 性 进行文档 合 大模型 图 系 文 答 文 文档 文 文 模型专 专 模型 答 答 进行 者 模 系统 图 文 模 模 实 实性 问 问 问 问 问 问 时 文档 性 03Sustainability ReportESG1.E1.Scope 1,Scope 2,Scope 32.3.2.S1.2.D&I3.3.G1.2.3.Sustainability ReportGRI文档导入 准 与 索引设计缺乏统 有效 指标体系缺少高 致 真实
3、难 追踪 与改进 闭环 系统难 持续 如何评估+PDF预处理模块文档提取元数据信息文档入库文档切块嵌入索引向量数据库政策法规合规文档技术文档API文档财务报表年报文档技术白皮书(公式/图形)预处理Agent文档加载器说明Package/API特点PyPDF使 pypdf PDF文件Package高效轻 合 简单PDF文档Unstructured使 Unstructured 开 PDF文件Package/API兼容 种文档格 支持内容 取 Amazon Textract使 AWS API PDF文件API云服务支持 合大批 文档 OCR MathPix使 MathPix PDF文件API专为 学
4、公 计 准 内容PDFPlumber使 PDFPlumber PDF文件Package丰富 PDF内容控制 功 PyPDFDirectry 目录 PDF文件Package批 便 个PDF文档PyPDFium2使 PyPDFium2 PDF文件Package高效 支持PDF页面 渲染 换PyMuPDF使 PyMuPDF PDF文件Package速 支持 PDF 细 PDFMiner使 PDFMiner PDF文件Package 合文 抽取 PDF 文 内容from langchain_unstructured import UnstructuredLoaderfrom typing import
5、 Listfrom langchain_core.documents import Documentpage_url=https:/zh.wikipedia.org/wiki/黑神话:悟空def _get_setup_docs_from_url(url:str)-ListDocument:loader=UnstructuredLoader(web_url=url)setup_docs=#parent_id=None#初始化 parent_id#current_parent=None#用于存储当前父元素for doc in loader.load():#检查是否是 Title 或 Tableif
6、 doc.metadatacategory=Title ordoc.metadatacategory=Table:parent_id=doc.metadataelement_idcurrent_parent=doc#更新当前父元素setup_docs.append(doc)elif doc.metadata.get(parent_id)=parent_id:setup_docs.append(current_parent,doc)#将父元素和子元素一起存储return setup_docs除Markdown之外,我还需要构建一套索引系统PDFSimple