1、演讲人:卢玥博士顺丰科技高级算法工程师浙江大学LLM方向博士后 实时检索基于生成驱动的信息补全机制 可控生成 检索增强注意力与输出约束 检索生成协同学习范式 从模块“串联”到“一体化”RAG RAG在安全领域的应用探索大纲2 静态检索:传统 RAG 采用“一次性检索+静态拼接”范式,在生成之前,仅根据用户初始 Query 做一次向量或关键词检索,结果固定地拼入 Prompt,这容易导致:单轮检索的信息固化:LLM只根据用户的初始查询执行一次检索。后续生成全程依赖这批固定知识,无法根据生成过程中的中间推理结果动态调整检索目标或补充新知识 查询不准确导致信息遗漏:用户初始检索语句不精准,导致关键知
2、识遗漏(低召回率)错误累积效应:生成早期若引用了不准确甚至错误信息,LLM无法回溯性检索补救,后续只能文本基于错误上下文继续生成,进一步放大幻觉 问题背景:静态检索在生成链中的瓶颈3知识库检索器LLM问题问题+相关知识回答检索阶段生成阶段LLM无法根据生成内容提问 核心目标:在生成过程中通过上下文驱动的“再检索”机制,动态构造查询,实现二次乃至多轮知识补充,从而持续提升生成内容的准确性与可信度。检索触发(核心策略)置信度阈值:利用预训练LLM的固有输出值如生成概率、自注意力权重作为触发检索的条件,当下一个 token 的生成概率低于预设阈值(如 0.7)时,自动暂停生成并触发检索 增量查询 每
3、次检索触发后,LLM 中断当前生成,基于“已生成内容摘要+待生成目标”动态构建高精度检索语句 查询可以包括上下文关键词、低置信度片段或预测的下一段主题,确保召回结果高度相关 知识注入 对召回的 Top-k 文档执行摘要抽取或片段筛选,将最关键的信息拼入新的 Prompt 通过模型自注意力机制,LLM 从中断点继续生成,直接吸收并运用检索到的知识 多轮迭代 支持多次触发与注入:每当生成过程中再次出现低置信度或新实体,就可以重复上述流程,形成“生成 检索 续写”的闭环4动态检索核心机制:边生成边补全 DRAGIN关键组件RIND(实时信息需求检测):通过分析LLM生成内容的不确定性、语义重要性和自
4、注意力权重,动态决定何时触发检索 QFS(基于自注意力的查询构建):利用LLM的自注意力机制,从整个上下文中选择与当前信息需求最相关的片段构建检索查询RIND和QFS模块:无需训练,完全基于LLM的自我注意力机制和预定义规则(如阈值判断)动态运作 QFS生成查询QFS的目标:触发检索时,提取关键信息构建检索查询文本QFS通过分析LLM生成过程中的自注意力权重,从整个上下文(包括用户问题和已生成文本)中选择语义关键性最高的若干token(如关键词或短语),并按原始顺序拼接成查询语句。QFS操作流程:LLM正在写一段关于史蒂夫乔布斯创业经历的文字,已生成到:“他后来退学后,”这时模型不确定下文如何
5、补充细节,此时触发检索提取自注意力权重:针对触发检索的位置“退学后”这个短语,QFS会计算它对前文所有词的自注意力权重,判断哪些词最相关。选择高注意力token:经过权重排序,QFS 选出与“退学后”最相关的前文关键词,比如:“史蒂夫乔布斯”、“里德学院”、“苹果公司”按原始顺序拼接关键词:将这些关键词按它们在上下文中出现的顺序拼接成一句话,QFS生成检索查询文本-“史蒂夫乔布斯 里德学院 退学后 苹果公司 创立”5动态检索的代表性框架:DRAGIN(2024)检索的触发由RIND(实时信息需求检测模块)动态决定,具体条件如下:触发机制:每生成一个token,RIND会实时判断生成过程中的信息
6、需求,当满足以下条件时触发检索:.不确定性:LLM生成当前token的概率低于阈值(如生成数值或专有名词时).语义重要性:是关键语义token(过滤停用词如“the”,“is”,仅保留关键语义token).自注意力权重:关注对后续生成影响最大的token(如实体、数值)RIND模块工作流程Step 1:检测生成不确定性LLM生成当前token的概率(概率越低,不确定性越高),反映模型对当前token的置信度。Step 2:检查自注意力权重分析当前token对当前已生成的上文中的token的关注程度。在Transformer模型中,生成每个token时,模型会计算该token对已生成的所有tok