CIC赛昇：2025大模型智能体开发平台技术能力测试研究报告-在线下载-三个皮匠报告

1、大模型智能体开发平台技术能力综合测试报告目录目录一、测试概述.1（一）测试背景与核心内容.1（二）测试方法与数据说明.1（三）免责声明.3二、RAG 能力测试.3（一）RAG 测试采用指标.3（二）测试实施.3（三）文本问答任务.4（四）结构化数据问答任务.5（五）图文问答任务.7三、工作流能力测试.9（一）工作流测试采用指标.9（二）测试实施.9四、Agent 能力测试.12（一）Agent 测试采用指标.12（二）测试实施.12五、总结与展望.16大模型智能体开发平台技术能力综合测试报告1一、一、测试测试概述概述（一）（一）测试背景与核心内容测试背景与核心内容在产业智能化转型加速的背景下，

2、大模型驱动的智能体（Agent）已形成多场景渗透态势。智能体因其具备知识增强、流程编排和智能决策等核心能力，正重塑企业级服务的技术生态。为用户更好地了解大模型智能体典型场景应用情况，对智能体开发平台（以下简称“平台”）技术实现路径与行业适配机制进行研究。本次测试选取阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个典型智能体开发平台的个人电脑端，围绕业务智能化的驱动能力展开测试。结合智能体的技术演进态势和行业应用实践，本报告确立 RAG 能力、工作流能力、智能体工具调用三个关键能力维度进行测试评估。1.1.RAGRAG 能力测试能力测试：RAG 能力评估重点考察平台的知识增强机制，旨在

3、验证 RAG在真实业务场景中的综合表现，包括知识检索精度、逻辑推理能力以及用户体验的平衡性。重点评估三个维度：一是多模态知识处理能力：包括文本、表格、图文等不同类型载体的处理；二是任务复杂度适应能力：涵盖从单点信息提取到跨文档关联推理的不同难度层级；三是交互机制完备性：包含拒答处理、澄清反馈、溯源引用等关键功能。2.2.工作流工作流（WorkflowWorkflow）能力测试）能力测试：工作流能力重点考察复杂场景下平台的流程控制机制，评估多轮对话中的流程稳定性与控制精度。以智能客服典型业务场景的订单咨询、退换货等能力为研究对象，聚焦参数动态提取、异常回退、意图识别与容错处理等关键智能性。3.3

4、.AgentAgent 能力测试能力测试：Agent 能力围绕工具调用智能化水平与复杂任务处理体验，考察单工具逻辑判断、多工具协同及提示词指令执行能力，验证智能体对内外部工具调用协同的意图识别、选择科学性与答案整合效果。（二二）测试方法与数据说明测试方法与数据说明本节围绕智能体开发平台核心能力评估，系统阐述了测试方法与数据情况。研究通过构建贴合企业级服务典型业务场景的标准化框架，结合多模态测试数据集、统一配置的智能体/工作流、综合性问题集，以及多样化调用与过程采集方式，实现对平台核心能力的系统测试与分析；同时明确了测试涉及的基础知识数据与响应结果数据的具体构成、来源及特征，为后续研究的科学性与

5、可靠性奠定了方法与数大模型智能体开发平台技术能力综合测试报告2据基础。1.1.测试方法测试方法本次测试基于模拟真实应用场景，构建标准化测试框架实现对大模型驱动的智能体开发平台核心能力的系统测试、比对、分析。场景构建场景构建方法方法。场景构建选取企业级服务中的客户服务、订单处理、知识问答等典型业务场景，精准还原真实业务流程中的交互逻辑与任务需求，以此保障测试场景与实际业务的高度贴合。数据数据集集构建构建方法方法。数据集构建针对多模态知识处理需求，构建包含政策文档、业务规范等纯文本，订单数据、客户信息等结构化表格，产品说明、操作指南等图文数据的测试数据集，实现对不同知识载体类型与业务领域的全面覆盖

6、。智能体智能体/工作流配置工作流配置方法方法。智能体/工作流配置依据各智能体的技术架构，在线配置相应的智能体与工作流模块。推理模型统一设定为 DeepSeek R1，问答模型统一设定为 DeepSeek V3，其余参数采用系统默认设置。仅对影响核心能力评估的关键配置进行必要对齐（若部分智能体默认模型无法切换，则保留其默认配置）。测试测试问题集设计问题集设计方法方法。测试问题集设计以行业真实业务流程和应用场景为依托，围绕三大核心能力维度，设计包含 15 个测试项、600+测试问题的综合性问题集。每个问题均标注对应能力维度与预期输出，作为评估基准。调用与调用与过程过程采集采集方法方法。调用与过程采

CIC赛昇：2025大模型智能体开发平台技术能力测试研究报告（21页）.pdf

CIC赛昇：2025大模型智能体开发平台技术能力测试研究报告（21页）.pdf