1、Multi-Agent RAG 应用质量保障建设蔡明哲蔡明哲現:Ubiquiti(优倍快)Software Quality Assurance前:HOMEE AI 软件测试工程师先后从事API、Web、移动应用、物联网测试,负责自动化框架设计及执行,以及各项测试流程的优化,同时引入新技术以提高效率。过去在 HOMEE AI 负责导入敏捷测试流程及建立 AI 测试策略,保障大模型应用服务质量被测产品及 Multi-Agent RAG介绍目 录测试大模型应用内容自动化测试123线 上 监 控4Agent ReAct frameworkLLMToolObservations循环至有最终解或次数上限A
2、gent 是指需具备计画(plan)、行动(act),并能根据工具回传的结果更新状态(observations)LLM 是 Agent 的大脑,负责拆解任务、推理、判断与决策,可以使用一个或多个语言模型取觉于任务需求。可以透过提供范例来增强模型的工具使用能力常用推理框架有:ReAct(Reasoning+Acting)Chain-of-Thought(CoT)Tree-of-Thought(ToT)模型无法直接与外界互动,工具(Tool)让 Agent 能够执行如查询资料、控制设备、调用 API 等动作工具的种类包含:Extensions:agent 端执行、与 API 整合Functions
3、:client 端执行,模型输出函数与参数,由开发者控制执行逻辑Data Stores:让 agent 可检索结构化或非结构化资料,用于 RAG观察行动的有效性,是否符合用户预期的结果,根据上下文资料、记忆与观察结果,决定接下来的动作Multi-Agent RAG SystemsUser QueryinputPromptAgentLLMResponseVectorDatabase_1VectorDatabase_2FunctionsToolsDataSource_1DataSource_2User QueryinputPromptRouterAgentLLMResponseVectorData
4、base_1VectorDatabase_2FunctionsToolsDataSource_1DataSource_2Agent_1Agent_2Agent_3ExtensionsAPI_1API_2Multi-Agent RAG SystemsSingle Agent RAG SystemsRAG 介紹User QueryEmbeddingsVectorDatabaseRetrievedContentAgentResponseRAG(Retrieval-Augmented Generation)是一种结合资料检索与生成模型的技术,能从外部知识库中撷取相关资讯,再由生成模型(如大型语言模型)
5、整合并产生更准确、有根据的回应。简单来说,RAG 让 AI先查资料再回答问题。一个 LLM input 可能的组合System Prompt(人设)Memory(记忆)User Prompt(用户输入)Content(资讯 如:RAG)LLM InputLLM input 的组成是由 System Prompt+Memory +User Prompt+Content 所组成,对应的元素有对应需要测试的点:人设对 Agent 能力的影响 需要记忆,需要记忆什么,记忆如何影响结果 用户输入的需求能否被 LLM 理解被分配,正确的调用工具 RAG 捞的准吗,资料是否都是最新最正确的当前大模型延伸应用
6、一个 AI 智能体服务,通常涉及多种大模型延伸应用,每个应用的测试方法接不相同,因此我们需要知道不同应用的特型,及适合哪些场景,对于测试计划上会很有帮助应用PromptRAGAgentFine Tuning目标优化输入动态检索讯息生成回答透过使用额外工具获得技能特定领域/任务调模型参数灵活高高中低成本低中中高场景需要快速迭代,且 LLM 已稳定特定领域知识问答及新资料迭代快LLM 不具备能力客制化优点稳定性强可更新 Knowledge具备额外能力针对特定domain、任务优化缺点不同模型适合的prompt不同需维护 Database高度依赖工具复杂任务效果有限MCP建立统一标准接口高中打造可插