1、大模型数据资产变现大模型数据资产变现RAGRAG驱动企业智能化实践案例驱动企业智能化实践案例演讲人:黄佳新加坡科研局/Lead Research Engineer Visuals Support:黄佳黄佳研究员/技术图书作者/极客时间专栏作者极客时间 LangChain实战课极客时间极客时间 RAGRAG进阶训练营进阶训练营极客时间极客时间RAG训练营训练营目录目录010203040506为什么我们仍然在谈论RAGRAG落地痛点及优化思路企业文档合规性问答系统落地实践医疗术语标准化系统的落地实践知识图谱在医疗术语标准化系统中的应用MCP和A2A时代的RAG为什么我们仍然谈论为什么我们仍然谈论R
2、AGRAGRAGRAG的落地,的落地,往往是面向业务做往往是面向业务做RAGRAG,而不是反过来面向而不是反过来面向RAGRAG做业务做业务。刘焕勇老师刘焕勇老师大模型时代的应用开发大模型时代的应用开发1.人类与大模型直接对话直接对话2.大模型进行知识检索知识检索3.大模型进行自主推理自主推理大模型价值利用的两个通用范式大模型价值利用的两个通用范式Agent+Tool CallsAgent+Tool CallsRAG+Fine TuningRAG+Fine Tuning智能体的推理能力智能体的推理能力大模型时代的知识检索大模型时代的知识检索RAGRAG是是“模型模型 知识知识 数据数据”融合的
3、关键融合的关键RAG RAG 看似简单,价值却难兑现看似简单,价值却难兑现RAGRAG落地痛点及优化思路落地痛点及优化思路RAGRAG落地难点落地难点文档的导入和解析(图、表)文档的导入和解析(图、表)如何将相关联的内容整体切片或建立起相关联的索引如何将相关联的内容整体切片或建立起相关联的索引如何处理大规模、分布式向量数据如何处理大规模、分布式向量数据Text2SQLText2SQL的精细化设计的精细化设计如何构建程序代码的检索系统如何构建程序代码的检索系统图数据库和知识图谱和图数据库和知识图谱和RAGRAG系统的结合系统的结合如何设计有权限的如何设计有权限的RAGRAG系统系统RAGRAG系
4、统系统优化优化思路思路 寻找瓶颈点寻找瓶颈点文档合规性问答系统落地实践文档合规性问答系统落地实践项目背景:可持续报告合规性分析项目背景:可持续报告合规性分析可持续发展报告(可持续发展报告(Sustainability ReportSustainability Report)是企业或组织自愿发布的一种非财务报告,主要披露企业在环境、社会责任和治理(ESG)方面的绩效,并展现企业如何管理可持续发展风险和机遇。1.1.环境(环境(E E)1.碳排放(Scope 1,Scope 2,Scope 3)2.能源消耗、用水情况、废弃物管理3.绿色产品和供应链管理2.2.社会(社会(S S)1.员工薪酬、健康
5、和安全2.多样性和包容性(D&I)3.社区发展、客户隐私、数据保护3.3.治理(治理(G G)1.反腐败政策、商业道德2.董事会治理、股东权利3.供应链合规内部审计:企业发布的内部审计:企业发布的Sustainability ReportSustainability Report究竟是否符合究竟是否符合GRIGRI标准标准文档导入如何构建含层次关系的索引(2024年的数据要与其标题有隶属关系)如何在构建索引时保持图表的原始结构化信息如何在索引过程中管理文档的元数据信息,进行检索结果的精准过滤与排序索引设计缺乏统一、有效的评估指标体系缺少高质量的评估数据集,导致评估结果不真实难以追踪评估与改进的
6、闭环,系统难以持续优化如何评估三个难点三个难点+痛点痛点 PDF格式不统一(文字、图片、公式、表格)文档结构复杂(章节、标题、子标题、段落之间存在多层嵌套关系)表格数据和正文密切相关,强行切分会破坏语义关联信息分散在多种来源(网页、内部文档库、第三方数据库等难点难点1 1 文档的导入(知识库的构建)文档的导入(知识库的构建)预处理模块文档提取元数据信息文档入库文档切块嵌入索引向量数据库政策法规合规文档技术文档 API文档财务报表年报文档技术白皮书(公式/图形)预处理预处理AgentAgent各种工具的简单比较各种工具的简单比较文档加载器文档加载器说明说明Package/API特点特点PyPDF