1、GraphRAG 进展分享GenAI TeamIntroductionSiwei GUNebulaGraph GenAI LeadNebulaGraph CommitterMicrosoft MVP(Python,AI)Open-Source,GenAI,Graph,Python,Believe in Open Source&build things with magicto help people do the same.wey-guwey_guhttps:/www.siwei.ioRAG 范式Retrieval Augmented索引:准备数据以进效检索查询:搜索和检索相关参考材料Gene
2、ration:从检索到的信息中进上下学习基准 RAG索引:Chunk and Embedding/BM25成 QA 对分层块摘要查询:Vector/Hybrid SearchRewrite Query递归搜索/复合搜索Agentic重排RAG 挑战1细粒度检索:碎化知识2全局上下:丢失连接3语义相似度:相关性错配4分层摘要:宏观问题挑战海捞针(Needle in Haystack)细粒度,分散的上下检索(Chunking)分割内容可能会使检索细粒度、分散的知识变得具有挑战性。分区可能会在多个段中稀释关键信息,使其更难捕获完整的上下。穿针引线(Connecting the Dots)全局上下/向
3、连接的检索(Chunking)线性分割块知识可能会导致丢失全局上下/连接。向连接的检索在 上下分散在多来源(不具有局部性)时 可能有挑战。相似性 vs.相关性语义相似度 上下相关性(基于嵌的 RAG)基础模型通常依赖于 常识或字意义,导致相关性(相关性幻觉)的错误正例。相似度(例如,95%)并不保证相关性;上下关的段可能看起来常相似(例如,虚构的谱或不存在的情节)。保温杯保温棚盲摸象(Tree vs.Forest)全局问题挑战难以从多个来源的分散信息中回答泛、全局的问题需要从整个数据集中总体获得洞察,不是某个孤的段图结构数据直观上:图结构数据是种以节点和边为基础的数据结构,于表示实体之间的关系
4、。知识图谱是知识的 _ 形式:精炼和简洁的细粒度的分段相互连接的结构现存知识图谱中的知识是准确的查询知识图谱是稳定可复现的领域知识通过图的 Schema 以 Entity&Relationships 形式被下推到图谱中GraphRAG定义:种利图结构数据/知识来辅助检索、重排、合成的 RAG 法。SubGraph RAG:低垂果实的策略、法获取任务中关键实体的图与其他 RAG 检索结果重排Generate QuestionLLMGraph StoreRAG Query EngineAgentic or RAG RouterUserGenerate QuestionLLMGraph StoreR
5、AG Query EngineAgentic or RAG RouterUserRequest TaskInitiate RAG QueryFetch SubGraph of Key EntitiesReturn SubGraphBuild Chunk with SubGraphRerank with Vector/BM25 RetrievalGenerate QuestionRequest LLM ProcessingProvide Processed DataDeliver Final QuestionGraphRAG Examples相关性 vs 相似性海捞针穿针引线投影 Meta/Do
6、main 知识到 PipelineGraph Algo:Node Importance(HippoRAG)Community Detection(MS From Local to Global)结构化数据 RAG相关性 vs 相似性AspectChunk-Based Baseline RAGGraph RAG检索法-基于整体相似性的语义向量搜索。-查询与块匹配以寻找相似上下。-从关键实体开始的图形检索。-使图推理或图检索通过关系找到相关上下。相关性评估-依赖语义相似性,基于概率阈值较整个查询与块。-倾向于找到相似的上下,即使它们不相关。-从细粒度实体提取开始。-遵循质量关系(动定义或由型语模型