《王昊奋-知识增强大模型:垂域落地的最后一公里.pdf》由会员分享,可在线阅读,更多相关《王昊奋-知识增强大模型:垂域落地的最后一公里.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、知识增强大模型:垂域落地的最后一公里演讲人 王昊奋 同济大学演讲嘉宾王昊奋同济大学特聘研究员同济大学特聘研究员/OpenKG发起人之一发起人之一中国计算机学会(CCF)技术前沿委员会知识图谱SIG主席、自然语言处理专委会秘书长;中国中文信息学会(CIPS)理事、语言与知识计算专业委员会副秘书长;上海市计算机学会青年工作委员会副主任。研究方向:知识图谱、自然语言处理、智能内容生成业。腾讯云最具价值专家TVP,中国中文信息学会理事,畅销书知识图谱方法、实践与应用的作者,曾作为2家AI独角兽企业的CTO;具有超过16年的知识图谱研发和技术管理经验。目 录CONTENTS1.知识检索增强的基本概述2.
2、知识检索增强技术的主要范式与发展历程3.知识检索增强的关键技术与效果评估4.知识检索增强技术栈与行业实践浅析5.总结与展望知识检索增强的基本概述PART 01知识检索增强技术提出的背景幻觉信息过时参数化知识效率低缺乏专业领域的深度知识推理能力弱LLM的缺陷实际应用的需求领域精准问答数据频繁更新生成内容可解释可溯源成本可控数据隐私保护由OpenAI DALL E 3生成检索增强生成(Retrieval-Augmented Generation,RAG)LLM 在回答问题或生成文本时,先会从大量文档中检索出相关的信息,然后基于这些信息来生成回答。RAG 方法使得不必为每一个特定的任务重新训练整个大
3、模型,只需要外挂知识库。RAG模型尤其适合知识密集型的任务。RAG的主要流程外挂知识库 vs 知识参数化大模型优化的方式提示工程Prompt Engineering检索增强Retrieval-Augmented Generation(指令)微调Instruct/Fine-tuningRAG vs Fine-tuningRAGFine-tuning知识更新直接更新检索知识库,适合动态数据环境重新微调训练,保持更新需要大量资源训练数据的要求对数据加工和处理的要求低微调依赖高质量数据集,有限的数据集可能不会产生显著性能改善可解释性(可溯源性)通常可以追溯到特定数据源的答案,从而提供更高等级的可解释性
4、和可溯源性微调就像黑匣子,并不总是清楚模型为何会做出这样的反应,相对较低的可解释性可扩展性高,可以动态衔接不同的数据源低,扩展新知识需要重新微调训练耗时由于(多次)数据检索可能会有更高延迟经过微调的 LLM 无需检索即可响应外部知识利用擅长利用外部资源,适合文档或其他结构化/非结构化数据库需要构造监督数据集以内化外部知识,不适用频繁更改的数据源知识检索增强的使用场景RAG适用的情况:数据长尾分布知识更新频繁回答需要验证追溯领域专业化知识数据隐私保护问答RETRO(Borgeaud et al2021)REALM(Gu et al,2020)ATLAS(lzacard et al,2023)事实
5、验证RAG(Lewis et al,2020)ATLAS(lzacard et al,2022)Evi.Generator(Asai et al,2022a)情感分析kNN-Prompt(Shietal.,2022)NPM(Min et al.,2023)机器翻译kNN-MT(Khandelwal et al.,2020)TRIME-MT(Zhong etal.,2022)常识推理Raco(Yu et al,2022)代码生成DocPrompting(Zhou et al.,2023Natural ProverWelleck et al.,2022)对话BlenderBot3(Shustere
6、tal.2022)Internet-augmentedgeneration(Komeili et a.,2022)总结FLARE(Jiang et al,2023)自然语言推理kNN-Prompt(Shi et al.,2022)NPM(Min et al.,2023)知识检索增强技术的主要范式与发展历程PART 02RAG的典型范式(Naive RAG)步骤1:构建数据索引:1.将文档分割成均匀的块。每个块是一段原始文本。2.利用编码模型为每个文本块生成Embedding3.将每个块的Embedding存储到向量数据库中。步骤2:检索通过向量相似度检索和问题最相关的K个文档。步骤3:生成原始