《传媒行业:Agent初具技术雏形重点关注三大演化方向-250520(15页).pdf》由会员分享,可在线阅读,更多相关《传媒行业:Agent初具技术雏形重点关注三大演化方向-250520(15页).pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。1 20252025 年年 0505 月月 2020 日日 传媒传媒 行业分析行业分析 AgentAgent 初具技术雏形,重点关注三大演初具技术雏形,重点关注三大演化方向化方向 证券研究报告证券研究报告 投资评级投资评级 领先大市领先大市-A A 维持维持评级评级 首选股票首选股票 目标价(元)目标价(元)评级评级 行业表现行业表现 资料来源:Wind 资讯 升幅升幅%1M1M 3M3M 12M12M 相对收益相对收益 1.4-8.1 14.2 绝对收益绝对收益 4.2-9.7 19.6 焦娟焦娟 分析师分析师 SAC 执业证书编
2、号:S1450516120001 王利慧王利慧 分析师分析师 SAC 执业证书编号:S1450523120002 相关报告相关报告 AI to C 四个方向:硬件入口、现象级应用、爆款内容、IP 运营系列 03:AI 对教育培训影响的 6 层次分析 2025-04-17 AI to C 四个方向:硬件入口、现象级应用、爆款内容、IP 运营系列 02:传媒互联网视角下,内容产业的 AI 新叙事 2025-03-31 AI Agent 本质为“执行”功能,关注其与终端结合的应用落地AI 专题报告之19 2024-11-05 AI 新标的,助力并购行情的“形势使然”还是“趋势使2024-11-04
3、AGIAGI 正迈正迈向向自主行动自主行动阶段阶段,指向,指向 AgentAgent、具身智能、具身智能。人工智能技术经过几轮迭代,已经基本迈过“感知-思考”的应用临界点,正在逐步实现“自主行动”的发展阶段,根据应用场景划分为 Agent、具身智能两个大方向。我们曾以人形机器人为切入点探讨过具身智能相关的技术原理、发展路径、主要参与者等,本篇将聚焦于本篇将聚焦于AgentAgent 方向,梳理其技术构成、演进阶段等。方向,梳理其技术构成、演进阶段等。20232023 年至今国内外模型迭代速度非常快,年至今国内外模型迭代速度非常快,推动了推动了 AgentAgent 产品感产品感知、规划、记忆能
4、力提升知、规划、记忆能力提升:1)GPT4、4o 模型从单一文本走向多模态,模型感知能力更全面;2)o1 通过后训练增强推理能力,模型推理能力实现突破;3)上下文窗口扩展至 100 万 token,模型记忆能力提升,将更了解用户;4)模型使用成本大幅下降,试错成本下降,2025年DeepSeek模型的报价为0.25-0.5元/百万token,约为 GPT-4o 的 1/7。使用工具的能力是使用工具的能力是 LLMLLM 模型与模型与 AgentAgent 的最大区别的最大区别,MCPMCP 协议有协议有望推动望推动 AgentAgent 工具生态建立:工具生态建立:围绕如何调用工具、交互更加高
5、效为主线,科技大厂先后探索出多种调用工具方式,其中以插件(plugin)、函数调用(Function Calling)、模拟人机交互(Computer use)三种方式最引人关注。2024 年 Anthropic 推出开放协议 MCP,屏蔽了不同模式工具与模型通信时的差异,统一由 MCP 协议转换对接,实现了一次开发、多场景复用的目的,能有效节省研发资源,降低边际开发成本,受到工具、模型及云厂商的广泛认可。当前处于当前处于 workflowworkflow 到到 AgentAgent 的过渡期的过渡期,类比自动驾驶规则驱动类比自动驾驶规则驱动阶段。阶段。考虑到当前模型能力有限、业务场景对可控性
6、要求较高,当前许多产品本质上为 AI Workflow,即按照预先定义好的代码路径,协调大模型和各种工具的系统,用于保证交付结果的稳定性。参考自动驾驶方案,我们认为当前可类比于自动驾驶的规则驱动阶段,我们预计真正 Agent 将实现从被动响应到主动执行的跃迁,进入到模型驱动阶段,进一步地也有望走入感知、决策规划、执行三位一体的端到端模型。AgentAgent 产品还在早期探索阶段产品还在早期探索阶段,若,若以前瞻以前瞻视角讨论商业化,我视角讨论商业化,我们认为产业链中以下几条主线值得重点关注:们认为产业链中以下几条主线值得重点关注:1)模型开源与闭源之争,对大模型厂商商业化能力最为关键;2)科
7、技大厂争先下场,争夺产业链潜在价值点;3)工具层适合中小公司入局,但模型与工具层边界有待清晰。投资建议:投资建议:-19%-9%1%11%21%31%2024-052024-092025-012025-05传媒传媒沪深沪深300300 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。2 行业分析行业分析/传媒传媒 1)利好算力基础设施,训练垂直场景中长尾模型算力、推理算力等需求将增长,关注商汤、阿里巴巴、腾讯;2)端侧硬件:手机、PC 等硬件终端支持 Agent 本地部署,对端侧算力要求提升,也将引来换机周期,关注小米集团;3)端侧芯片:手机等终端算力不足,对芯片性能仍有增长需求。
8、4)To C:个人助手,关注现有 C 端应用、华为小艺等手机助手的升级迭代,关注小米集团、腾讯;5)To B:Mass 软件平台,用 AI 重塑 SaaS 等系统;私有化部署服务商,Agent 个性化需求解决仍不足,需要服务商基于客户场景进行私有化定制,关注第四范式、云从科技等;风险提示:风险提示:技术进展不及预期、行业竞争加剧、商业模式变化 然”?AI 专题报告之 18 预计 AI 技术路径将由大模型切向具身智能AI 专题“从上网到上算,由网络世界至虚拟现实”之十七 2024-09-26 行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。3 内容目录内容
9、目录 1.技术层:模型与工具能力显著进化,类比自动驾驶规则驱动阶段.4 1.1.发展路径:AGI 正迈向自主行动阶段,指向 Agent、具身智能.4 1.2.关键技术:模型与工具显著进化,下一步提升可靠性、统一标准.4 1.2.1.模型:感知与推理能力提升&成本下降,但可靠性不足限制场景.5 1.2.2.工具:MCP&A2A 推动开发标准化,但标准主导权未定.7 1.3.所处阶段:从工作流模式向 Agent 过渡,类比自动驾驶规则驱动阶段.9 2.产业链:商业化模式仍处早期,关注三大主线下动态演化.11 2.1.主线 1:模型开源与闭源之争,对大模型厂商商业化能力最为关键.11 2.2.主线
10、2:科技大厂争先下场,争夺产业链潜在价值点.12 2.3.主线 3:工具层适合中小公司入局,但模型与工具层边界有待清晰.12 3.投资建议.13 4.风险提示.13 图表目录图表目录 图 1.人工智能核心模块及关键路径.4 图 2.Agent 与环境交互的链路.5 图 3.AI Agent 基础框架.5 图 4.2023 年至今代表性模型及其他特点.6 图 5.主流基础模型在在推理、数学、代码能力上的评分.6 图 6.模型智能化水平与使用成本.6 图 7.调用 OpenAI 模型成本显著下降.7 图 8.DeepSeek 模型报价.7 图 9.MCP 的工作架构.8 图 10.A2A 协议的工
11、作架构.8 图 11.MCP、A2A 方案的关系.9 图 12.智谱对 AGI 进行的分级与对应路线图.10 图 13.三种工作流模式.10 图 14.自动驾驶技术演进路径.11 图 15.扣子空间合作客户案例.13 表 1:MCP、A2A 主要的合作伙伴.9 表 2:Workflow 与 Agent 对比.10 表 3:模型 API 定价(每百万 Token).11 表 4:国内外科技大厂代表性 Agent 产品.12 行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。4 1.1.技术层技术层:模型与工具能力显著进化,类比自动驾驶规则驱动阶段:模型与工具
12、能力显著进化,类比自动驾驶规则驱动阶段 1.1.1.1.发展路径:发展路径:AGIAGI 正迈正迈向向自主行动自主行动阶段阶段,指向,指向 AgentAgent、具身智能、具身智能 参考人类处理问题的流程与能力来看,人工智能系统应当具备的三大核心模块为:参考人类处理问题的流程与能力来看,人工智能系统应当具备的三大核心模块为:1)1)感知模块:感知模块:类似于人类的眼睛、耳朵等感官一样,人工智能需要借助摄像头、传感器等进行图像、声音等信息的收集,并将其传输至像大脑一样的数据处理中枢进行信息处理;2)2)规划规划模块:模块:类似于人类大脑,人工智能应该有数据处理中心对所收集的数据进行处理分析,人类
13、根据大脑处理后的信息,并基于一定的经验与知识对所处的环境进行判断,并最终做出决策;3)3)行动模块:行动模块:在做出判断后,人类通过语言或行动对外界做出反馈。AIAI 正在迈入自主行动正在迈入自主行动阶段阶段,指向,指向 AI AgentAI Agent、具身智能两个方向。、具身智能两个方向。人工智能技术经过几轮迭代,已经基本迈过“感知-思考”的应用临界点,正在逐步实现“自主行动”的发展阶段。我们认为其应用场景划分为两个方向:1)若仅需要在数字世界完成交互,则指向 AI Agent,即能够通过观察环境并利用其可用的工具对环境采取行动以尝试实现预设目标的程序(资料来源:谷歌 Agent 白皮书)
14、;2)在 Agent 基础上,还需要借助硬件与现实物理世界进行交互,则指向“具身智能”,如智能驾驶、人形机器人等。图图1.1.人工智能核心模块及关键路径人工智能核心模块及关键路径 资料来源:国投证券证券研究所整理 我们曾在人形机器人的 AI 算法,如何借力于自动驾驶 FSD、英伟达入局加速产业进程,特斯拉等积极推动量产及应用落地中以人形机器人为切入点探讨过具身智能相关的技术原理、发展路径、主要参与者等,本篇将聚焦于本篇将聚焦于 AgentAgent 方向,梳理其技术构成、演进阶段等。方向,梳理其技术构成、演进阶段等。1.2.1.2.关键技术:模型与工具显著进化,下一步提升可靠性、统一标准关键技
15、术:模型与工具显著进化,下一步提升可靠性、统一标准 按照“感知按照“感知-决策规划决策规划-行动”的处理链路,行动”的处理链路,AgentAgent 产品设计需要包括记忆(储存环境感知信产品设计需要包括记忆(储存环境感知信息)、决策规划、工具(用于交互获取信息)三大模块,其中模型能力、调用工具调用最为重息)、决策规划、工具(用于交互获取信息)三大模块,其中模型能力、调用工具调用最为重要:要:1)模型承担了感知、规划、记忆的主要职能,模型承担了感知、规划、记忆的主要职能,以目前主流的 LLM+强化学习模型作为基础模型,负责智能体感知、决策规划能力,同时模型的上下文窗口用于存储环境信息;2)工具用
16、于补充感知信息,辅助行动:工具用于补充感知信息,辅助行动:对于对话、生成图片等简易的任务,目前主流的 LLM几乎都可以完成,无需工具;但复杂任务则需要调用工具补充信息以增强决策能力或者实现具体任务,比如在购买机票时查询航班信息、下单等步骤;行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。5 以订购机票为例,智能体处理的流程大体为:以订购机票为例,智能体处理的流程大体为:模型对订购机票的问题分析得出用户目的;编排层分析下一步的行动,如打开航班查询工具输入出发地、目的地获取航班查询工具返回结果;交给模型层组织语言,给客户返回结果。图图2.2.Agent 与环
17、境交互的链路与环境交互的链路 图图3.3.AI Agent 基础框架基础框架 资料来源:阿里云官网、国投证券证券研究所 资料来源:LLM Powered Autonomous Agents、国投证券证券研究所 基于上述流程,我们推断评估基于上述流程,我们推断评估 AgentAgent 是否好用的关键标准包括是否好用的关键标准包括:1)强大的模型能力,能够理解用户意图,擅长多步推理,输出稳定可靠的结果;2)具备较强的工具拓展性,支持尽可能广泛的工具,以增强智能体的交互能力、处理能力;3)具有较强的工程化能力,需要设计巧妙地工程化结构以提高输出效率、降低算力成本。以下我们重点关注模型以下我们重点关
18、注模型与与工具的演进过程、工具的演进过程、当前行业格局当前行业格局。1.2.1.1.2.1.模型:感知与推理能力提升模型:感知与推理能力提升&成本下降,但可靠性不足限制场景成本下降,但可靠性不足限制场景 20232023 年至今国内外模型迭代速度非常快,年至今国内外模型迭代速度非常快,总体趋势总体趋势是基于是基于 Scaling LawScaling Law 本质,本质,使用使用超大规模超大规模高质量数据、模型算法和算力的提升高质量数据、模型算法和算力的提升提升提升模型效果模型效果。沿着该技术路径推进,模型技术能力持。沿着该技术路径推进,模型技术能力持续突破,对实现续突破,对实现 AgentA
19、gent 产品可成功表现为感知、决策规划、记忆能力提升:产品可成功表现为感知、决策规划、记忆能力提升:GPT4GPT4、4o4o 模型从单一文本走向多模态,模型感知能力更全面。模型从单一文本走向多模态,模型感知能力更全面。2023 年 3 月 OpenAI 推出GPT4,标志大模型从单一文本走向了多模态,能更好地理解图片、视频、音频、代码等信息,具备了视觉感知、听觉感知能力;4o 在训练阶段将多模态数据一起喂给模型,进一步提升了多模态感知能力。(资料来源:OpenAI 官网)o1o1 通过后训练增强推理能力,模型推理能力实现突破。通过后训练增强推理能力,模型推理能力实现突破。为了提高模型的决策
20、能力,最初采用思维链(Chain-of-Thought)、思维树(Tree-of-Thoughts)方式提高推理能力,至2024 年 9 月 OpenAI 推出 o1 模型,采用后训练方式,在回答问题时模拟人类“慢思考”的过程,生成详细推理步骤,包括分解问题、尝试不同策略等,使模型在规划决策上的能力有了突破;2025 年 2 月份推出 Deepreaserch,具备了端到端自主规划能力。2025年 4 月 16 日,OpenAI 发布 o3 模型,根据外部专家的评估中,o3 在困难的现实任务中比 o1 犯的重大错误少 20%,在分析图像、图表和图形等视觉任务中表现尤为出色。(资料来源:Open
21、AI 官网)上下文窗口扩展至上下文窗口扩展至 100100 万万 tokentoken,模型记忆能力提升,模型记忆能力提升,将更了解用户。将更了解用户。上下文窗口越长。用户给模型的输入越多,能够给模型提供更多精确数据,使模型表现更好。2023 年 5 月,Anthropic 发布的 Claude 模型将上下文窗口拓展至 100K token,较发布前市场上主流的 token 扩大 10 倍;2023 年 11 月 Claude 模型将上下文窗口提升至 200K token,2025年 3 月谷歌 Gemini2.0 将上下文窗口拓展至百万级别,相当于能够同步处理多达 1,500 页的文本或 3
22、 万行代码,使模型能够处理更大规模的信息。目前研究领域有观点认为,得上下文者得天下,特别是对用户端交互数据的积累,随使用时间沉淀,能帮助模型更好理解用户需求,使用户迁移成本变高,有望最终形成 C 端产品的竞争壁垒。行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。6 图图4.4.2023 年至今代表性模型及其他特点年至今代表性模型及其他特点 资料来源:CSDN、OpenAI 官网、Anthropic 官网、国投证券证券研究所 从实现能力上,从实现能力上,GPT4GPT4 为代表的模型已基本达到大学生以上智能化水平为代表的模型已基本达到大学生以上智能化水平。
23、根据 Deepseek 等论文的评估数据,目前主流模型在任务理解、数学、代码等任务的通过率基本在 70%-80%,在代表推理能力的高级问答场景的通过率相对薄弱,但也已经达到 50%左右。随模型能力进一步迭代,推理场景的通过率有望进一步提升。根据澜码科技观点,GPT4 的智能化程度已经基本达到大学生以上水平。图图5.5.主流基础模型在在推理、数学、代码能力上的评分主流基础模型在在推理、数学、代码能力上的评分 图图6.6.模型智能化水平与使用成本模型智能化水平与使用成本 资料来源:arxiv、Google、deepseek 技术社区、国投证券证券研究所 资料来源:澜码科技、国投证券证券研究所 其次
24、,模型使用成本大幅下降,试错成本下降。其次,模型使用成本大幅下降,试错成本下降。从 OpenAI 开发的系列模型调用收费来看,2023 年初 GPT-4 收费为 36 美元/百万 token,到 2024 年推出 GPT-4o 时为 0.25 美元/百万token,价格下降为 GPT-4 推出时的 1/144。2025 年 DeepSeek 模型的报价为 0.25-0.5 元/百万 token,按照汇率换算约为 GPT-4o 的 1/7,价格进一步下探。得益于模型使用成本下降,基于模型进行应用研发的成本会下降,会提高企业、开发者的尝试积极性,有望提高 AI Agent的场景渗透率。72.6%4
25、9.9%74.6%80.5%76.4%62.1%89.7%75.9%59.1%90.2%82.6%78.0%65.0%78.3%81.7%71.6%49.0%80.0%77.3%73.3%51.1%73.8%77.2%87.0%77.3%86.7%0%20%40%60%80%100%MMLUGPQAMATHHumanEvalGPT-4oGemini 2.0DeepSeek-V3Claude 3.5 SonnetQwen 2.5-72BLLaMA 3.1-405B豆包(Seed-Thinking-v1.5)行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。7
26、 图图7.7.调用调用 OpenAI 模型成本显著下降模型成本显著下降 图图8.8.DeepSeek 模型报价模型报价 资料来源:OpenAI、腾讯新闻、国投证券证券研究所 资料来源:Deepseek 官网、国投证券证券研究所 但模型仍存在一些但模型仍存在一些问题问题,限制了其在一些严肃场景的渗透率提升,限制了其在一些严肃场景的渗透率提升:1 1)幻觉问题。)幻觉问题。大模型基于概率生成文本,在推理过程中对于缺失部分会进行“合理推测”,可能通过强行构建逻辑链产生事实错误。在诸如医疗等严肃的 To B 场景对幻觉问题的容忍度较低,导致企业在采用模型时的决策较为谨慎;2 2)上下文窗口不足上下文窗
27、口不足。通常来说,一个 token 大概对应英语里的四个字符或者四分之三的单词,OpenAI 最新发布的 o3 模型上下文本窗口为 200K,即支持查询约 15 万英文单词的内容,但这在需要处理大量资料的法律、商业咨询等场景仍有不足。1.2.2.1.2.2.工具:工具:MCP&A2AMCP&A2A 推动开发标准化,但标准主导权未定推动开发标准化,但标准主导权未定 某种程度上,使用工具的能力是某种程度上,使用工具的能力是 LLMLLM 模型与模型与 AgentAgent 的最大区别,的最大区别,20232023 年至今年至今,围绕如何调用围绕如何调用工具工具、交互更加高效为主线交互更加高效为主线
28、,科技大厂先后探索出科技大厂先后探索出多种多种调用工具方式调用工具方式,其中以插件(,其中以插件(pluginplugin)、)、函数调用函数调用(Function CallingFunction Calling)、模拟人机交互()、模拟人机交互(Computer Computer useuse)三种方式最引人关注:)三种方式最引人关注:插件插件(PluginPlugin):):2023 年 OpenAI 在 ChatGPT 中推出插件功能,模型接受用户提示词后,根据意图将其提供给更专业的插件产品,由其给出相应反馈后,由模型整理后输出给用户。在这种模式中,用户请求、模型与工具的交互基于自然语言
29、的,函数调用函数调用(Function CallingFunction Calling):):2023 年 6 月,OpenAI 首次推出 Function Calling 功能,允许模型提取用户输入生成结构化输出参数,比如都用 Json 对象定义工具名,调用预先定义好的外部 API、工具系统,用以执行具体操作,并于 2024 年 8 月正式发布,且整合入 GPT-4o 等模型中;模拟人机交互(模拟人机交互(Computer Computer useuse):):2024 年 11 月 Anthropic 推出 Computer use 功能,模拟人类操作模式与桌面应用交互,比如滑动、点击、打
30、字等;2024 年 11 月,智谱推出Auto-GLM,通过图形用户界面(GUI)自主控制数字设备,实现更进一步的 Phone use,模拟人类与手机应用交互;2025 年 2 月,OpenAI 推出基于 Computer-Using Agent(CUA)模型的产品 Operator,结合 GPT-4o 的视觉能力和强化学习,通过截图解析与图形用户界面(GUI)交互,模拟人类操作与网页交互。与 Anthropic 不同在于Anthropic 的Computer use 功能前端模拟人类操作,但实际需要借助 API 接口执行,而 OpenAI 的Operator,本质基于多模态感知能力,直接对图
31、形界面 GUI 进行交互。三种模式各有优劣,实际使用中结合需求、成本综合考量。三种模式各有优劣,实际使用中结合需求、成本综合考量。插件模式开发最简单,且灵活,但是主要通过模糊的提示词进行交互,返回结果容易出现偏差;函数调用模式输出结构化参数,清晰可控,能够减少因内容模糊反复试错产生的调用模型成本,但不同模型、工具间的调用格式不统一,存在兼容问题;对于未开放接口的外部工具而言,基于 CUA 模型的 computer use 模式可以作为补充,通过模拟人机操作的方式执行功能,实现可拓展性,而且该种模式操作过程可见,有利于增强用户信任。三种模式各有优劣,目前 Agent 产品多采用混合模式开发,基于
32、场景、使用效果、成本等进行综合评估。行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。8 MCPMCP 为模型与工具间通信提供为模型与工具间通信提供标准协议,有望标准协议,有望降低开发工具的边际成本降低开发工具的边际成本。2024 年 11 月Anthropic 推出开放协议 Model Context Protocol(MCP),如下图架构,MCP 分为客户端-服务器-本地数据库三层架构,客户端 MCP 中内置 LLM 模型、部分工具、IDE 集成环境,每个服务器本质上代表了一类封装工具,用于搜索浏览器查询内容、访问数据库、操作用户界面等某种特定需求。封
33、装后的服务器与客户端通过预先定义好的标准协议(MCP)进行通信,其中标准协议中定义好了调用工具的规则,包括参数名、参数类型和参数描述等。MCP 的价值在于屏蔽了 Function calling、Computer use 等不同模式工具与模型通信时的差异,统一由MCP 协议转换对接,实现了一次开发、多场景复用的目的,能有效节省研发资源,降低边际开发成本。图图9.9.MCP 的工作架构的工作架构 资料来源:Anthropic 官网、国投证券证券研究所 GoogleGoogle 推出推出 A2AA2A 协议协议,重点关注重点关注 AgentAgent 间通信间通信。2025 年 4 月 9 日,谷
34、歌在 Google Cloud Next 25 大会上推出 Agent2Agent 协议(A2A),旨在让分布式异构的 AI 智能体能够相互通信,在具体执行过程中,每个 Agent 都需要提供一份 JSON 格式说明书(Agent Card),表示可以完成的任务能力,当客户端 Agent 需要时会发起请求,双方建立传输机制,无需共享内存、资源和工具即可进行动态、多模式通信。与 MCP 相比,A2A 协议增加主动能力发现、用户安全验证等能力,能够满足企业级代理生态所需要的安全要求。图图10.10.A2A 协议的工作架构协议的工作架构 资料来源:谷歌、国投证券证券研究所 A2AA2A 是对是对 M
35、CPMCP 的升维的升维从单体从单体 AgentAgent 走向多走向多 AgentAgent 协作,协作,但也存在潜在竞争。但也存在潜在竞争。MCP 专注于代理对工具或者资源的访问,重点关注单个代理内部能力的提升;而 A2A 专注代理之间的通信与协作,适用于多代理协同工作的场景。从逻辑上看,从 MCP 到 A2A 是从单代理向多代理协作机制的演进,是管理层级的升维,在具体场景中两种协议搭配互补,可以提高 Agent 能行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。9 力。但从本质来看,两种协议都在解决通信机制,且输出结果均为结构化 JSON,当工具复
36、杂度提升后,可能也会以 Agent 形式存在,MCP 也有希望具备 A2A 能力,因此我们认为两种协议也存在潜在竞争,MCP 与 A2A 的竞争可能会演变为 Anthropic、谷歌对协议标准主导权的争夺。图图11.11.MCP、A2A 方案的关系方案的关系 资料来源:谷歌官网、国投证券证券研究所 MCPMCP、A2AA2A 均在均在构建生态体系构建生态体系,主导权之争或为下一阶段关注点,主导权之争或为下一阶段关注点。MCP 聚焦于模型与工具、资源的链接,受到工具、模型及云厂商的认可,目前接入 MCP 协议的包括 Github、Notion、阿里云、DeepSeek 等。谷歌 A2A 协议在企
37、业级场景做了优化,目前已获得 50 多家科技企业和服务商支持,包括 Saleforce、埃森哲、德勤、C3.ai 等跨国企业。我们认为 MCP、A2A 两种协议模式都推动了产业向标准化方向的演进,但主导权格局仍未清晰,建议关注 Anthropic、谷歌两家科技公司在模型能力提升、技术路径的选择,将对生态格局产生影响。表表1 1:MCPMCP、A2AA2A 主要的合作伙伴主要的合作伙伴 领域领域 合作伙伴合作伙伴 MCPMCP 生态生态 云与数据 AWS、阿里云、Snowflake、MongoDB、Databricks 开发框架 LangChain、LlamaIndex、Hugging Face
38、 行业工具 GitHub(代码)、Zapier(自动化)、Airtable(数据库)、Notion(文档)模型厂商 Anthropic(Claude)、DeepSeek、智谱 AI A2AA2A 生态生态 技术平台 Google Cloud、MongoDB、LangChain、Cohere、Databricks 企业件 Salesforce(CRM)、SAP(ERP)、ServiceNow(IT 服务)、Workday(HR)、Atlassian(协作工具)行业服务 埃森哲、德勤、毕马威、凯捷、Infosys(系统集成)重量应用 Box(文件管理)、UKG(劳动力管理)、Intuit(财税)、
39、C3.ai(工业 AI)资料来源:Anthropic 官网、谷歌官网、CSDN、国投证券证券研究所 1.3.1.3.所处阶段:从工作流模式向所处阶段:从工作流模式向 AgentAgent 过渡,类比自动驾驶规则驱动阶段过渡,类比自动驾驶规则驱动阶段 AGIAGI 正处于正处于 L2L2 到到 L3L3 过渡阶段,过渡阶段,AgentAgent、机器人、机器人等场景需要解决自我进化难题等场景需要解决自我进化难题。智谱将 AGI 路线图划分为 5 级,分别为 L1 预训练大模型、L2 对齐与推理、L3 自我学习、L4 自我认知、L5意识智能。L1 是预训练过程;L2 是将预训练知识与文本、用户意图
40、、图片及多模态进行对齐,本质上是激活预训练阶段所学知识。目前 AGI 正位于从 L2 向 L3 发展的关键阶段,需要提升模型的自我学习能力,通过反思、沉思获得对自身行为做出调整优化。行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。10 图图12.12.智谱对智谱对 AGI 进行的分级与对应路线图进行的分级与对应路线图 资料来源:智谱 AI、国投证券证券研究所 对应对应当前处于当前处于 workflowworkflow 到到 AgentAgent 的过渡期。的过渡期。但是考虑到当前模型能力有限、业务场景对可控性要求较高,当前许多产品本质上为 AI Work
41、flow,即按照预先定义好的代码路径,协调大模型和各种工具的系统,用于保证交付结果的稳定性,其与传统的自动化工作流相比,部分由大模型驱动,比如增强感知理解,但到决策规划部分仍不具备自主决策能力,需依据一定规则;Agent 是大模型自主决定处理过程和工具使用方式的系统,能独立完成任务,具有适应性,我们认为当前正处在由 AI Workflow 模式向 Agent 模式过渡阶段。表表2 2:WorkflowWorkflow 与与 AgentAgent 对比对比 Agent Workflow 核心能力核心能力 动态决策、环境交互 流程编排、规则执行 适用场景适用场景 开放任务、不确定性高 标准化流程、
42、确定性高 技术复杂度技术复杂度 高(需强化学习/LLM)中(依赖流程引擎)扩展性扩展性 通过多 Agent 协作提升 通过子流程嵌套扩展 资料来源:CSDN、国投证券证券研究所 图图13.13.三种工作流模式三种工作流模式 资料来源:智猩猩 GenAI、国投证券证券研究所 从从 workflowworkflow 走向真走向真 AgentAgent,类比于自动驾驶中规则驱动到模型驱动的演进。,类比于自动驾驶中规则驱动到模型驱动的演进。根据特斯拉 2022年 AI day 给出的自动驾驶方案,其感知模块为神经网络结构,而决策规划模块则是基于规则(以工程师定义规则为主)网络与神经网络相结合方案,因此
43、整个自动驾驶方案并非完全的端到端神经网络。而 Fsd V12 版本的推出标志着决策规划也进入到神经网络阶段,且实现了感知到决策规划的端到端方案。参考自动驾驶方案,我们认为当前许多产品采用的workflow 模式可类比于自动驾驶的规则阶段,而 Agent 进化之处在于让它让 AI 完成了从被动响应,到主动执行的跃迁,进入到模型驱动阶段,进一步地也有望走入感知、决策规划、执行三位一体的端到端模型。行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。11 图图14.14.自动驾驶技术演进路径自动驾驶技术演进路径 资料来源:商汤公众号、国投证券研究中心 2.2.产业
44、链:产业链:商业化模式仍处早期,关注三大主线下动态演化商业化模式仍处早期,关注三大主线下动态演化 基于上述技术的探讨,我们认为基于上述技术的探讨,我们认为模型能力仍在进化模型能力仍在进化、工具生态的丰富性及使用效果仍有待优、工具生态的丰富性及使用效果仍有待优化,因此化,因此 AgentAgent 产品产品还在还在早期探索阶段早期探索阶段。若以前瞻视角讨论商业化,。若以前瞻视角讨论商业化,我们认为产业链我们认为产业链中以下中以下几条主线值得重点关注:几条主线值得重点关注:2.1.2.1.主线主线 1 1:模型开源与闭源:模型开源与闭源之争之争,对大模型厂商商业化能力最为关键对大模型厂商商业化能力
45、最为关键 模型分为两种商业模式:模型分为两种商业模式:1)闭源模式,科技大厂自研,支持自身产品的同时为其他 Agent 提供接口,如 OpenAI 使用 GPT-4o、o1 模型,谷歌使用 Gemini 2.0 模型;2)采用开源模型,以 Manus 为例,主要采用开源模型 Claude 3.5,此外常用的开源模型包括 Meta 旗下的 Lamma系列、阿里 Qwen 系列、DeepSeek-V3。通常闭源模型的能力更强,而开源模型成本更低。DeepSeekDeepSeek 强能力强能力+低成本,有望强化开源生态。低成本,有望强化开源生态。2025 年 Deepseek-V3 上线并同步开源,
46、其能力基本达到 GPT-4o 的水平(详见图 5),处于行业前列,同时成本显著下降,以每百万 token输入价格来看,GPT-4o 为 1.25-2.5 美元,而 DeepSeek-V3 则为 0.014-0.14 美元。强大的模型能力与极低的算力成本进一步推动开源生态的繁荣,有望刺激下游应用的探索。表表3 3:模型模型 APIAPI 定价(每百万定价(每百万 TokenToken)模型模型 输入价格(美元输入价格(美元/百万百万 tokenstokens)输出价格(美元输出价格(美元/百万百万tokenstokens)DeepSeek-R1 0.14(缓存命中)/0.55(未命中)2.19
47、OpenAI o3-mini 0.55(缓存命中)/1.10(未命中)4.40 OpenAI o1-mini 0.55(缓存命中)/1.10(未命中)4.40 OpenAI o1 7.50(缓存命中)/15.00(未命中)60.00 DeepSeek-V3 0.014(缓存命中)/0.14(未命中)0.28 OpenAI GPT-4o-mini 0.075(缓存命中)/0.15(未命中)0.60 OpenAI GPT-4o 1.25(缓存命中)/2.50(未命中)10.00 资料来源:智东西、国投证券证券研究所 我们认为开源与闭源之争的影响将落在大模型厂商的商业化问题上,特别是对 OpenAI
48、、谷歌等头部厂商,目前 OpenAI 在模型路径上仍具备前瞻性,比如 OpenAI 率先推出 o1 等,开源厂商仍处在追赶阶段。如果科技大厂保持领先,则有望通过 API 定价获得收益;如 DeepSeek等开源厂商与 OpenAI 的差距持续缩小,那么闭源厂商通过授权 API 获得收益的商业模式下将无法体现出性价比优势,可能会直接下场做产品进行变现,从而产业链上模型、产品公司的竞争边界可能模糊,影响产业链价值的分配。行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。12 2.2.2.2.主线主线 2 2:科技大厂争先下场,争夺:科技大厂争先下场,争夺产业链
49、潜在价值点产业链潜在价值点 我们梳理了国内外科技大厂目前在 Agent 方向的布局,2025 年头部科技大厂都在 AI Agent上重点布局,从产品能力来看:1)基本以当前市场上领先的推理模型为基座,包括 GPT-4o、o3、Claude 3.5、通义千问等;2)网页浏览、交互为基本功能,在此基础上不同厂商对数据分析、代码等工具有所侧重,阿里在云上支持 MCP,在尝试借助标准化协议培养生态。表表4 4:国内外科技大厂代表性国内外科技大厂代表性 AgentAgent 产品产品 发布团队发布团队 代表产品代表产品 发布时间发布时间 模型层模型层 支持工具支持工具 产品特点产品特点 OpenAI O
50、perator 2025.1.23 GPT-4o 通过浏览器“查看”(通过屏幕截图)和“交互”(使用鼠标和键盘允许的所有操作)Deep Research 2025.2.2 OpenAI o3 使用浏览器和 Python 工具 Anthropic AI Agent 2024.10 Claude 3.5 Sonnet 屏幕内容解读;按钮选择与文本输入;网站浏览与实时互联网搜索;多步骤任务执行(数十至数百步)结合多模态交互能力、强调安全性和可定制性、模拟人类操作计算机界面、支持动态工具调用与自主决策 Monicia Manus 2025.3.6 GPT-4、Claude 3.5等 支持 200+AP
51、I 的智能调用,包括网络搜索、数据分析、代表编写、文档生成等 虚拟机沙盒、多智能体协作架构、目标导向型推理框架 字节跳动 扣子空间 2025.4.18 豆包 支持浏览器自动化、文件管理、代码生成,并集成 MCP(模型上下文协议)扩展能力,可调用第三方工具(如语音合成、网络爬虫)。通过拖拽式画布配置任务流程,支持 LLM参与或独立执行,适用于企业知识库调用、API 集成等场景。智谱 AutoGLM 2025.4 开源 GLM-4 基座模型与GLM-Z1 推理模型 实时搜索、动态工具调用、支持跨端(网页、PC、手机)自主执行指令 阿里 百炼 MCP 服务 2025.4 通义千问 200+大模型、5
52、0+MCP 服务(如高德API、飞书文档)资料来源:腾讯网、OpenAI 官网、Anthropic、AutoGLM、阿里云、国投证券证券研究所 从产业链位置进行划分从产业链位置进行划分,目前入局,目前入局 AgentAgent 的科技大厂主要分为的科技大厂主要分为四四类:类:1 1)云厂商,)云厂商,以微软、阿里云为代表,在云基础算力同质化竞争基础上需要叠加构建 Agent 产品的模型、工具等增值服务,以体现差异化,进而推动客户扩大云计算消耗规模,从而形成闭环;2 2)大模型厂商,)大模型厂商,以 OpenAI、Anthropic 为代表,引领全球模型的技术研究方向,但未来两家公司侧重可能会有
53、不同,OpenAI 推出 Operator,在 Agent 产品形态上的探索最快;Anthropic优先构建了 MCP 标准协议,未来有望构建开发者生态;3 3)互联网大厂,)互联网大厂,如谷歌、腾讯,基于自身业务场景需求储备了 AI 技术能力,AI 进入后可能会重塑业务场景,因此必须积极防御,借助丰富的数据、用户壁垒率先构建优势;且这类公司基于互联网的产品经验,对用户使用习惯有深刻洞察,在产品设计等层面有优势;4 4)硬件终端厂商,)硬件终端厂商,以 Apple、华为、小米等为代表。我们认为硬件仍将是 AI Agent 直接面对消费者的载体,尽管其硬件形态或许不一定是手机,因此出于防御心态,
54、硬件厂商需要关注下一代硬件形态;其次,基于上述技术的讨论,Agent 产品需要调用工具交互,在应用层面进行交互可能面临硬件厂商与应用厂商之间的商务关系、利益分配,如果能直接从系统层级交互,则推进效率更高,因此把控系统能力的厂商具有优势。我们认为以上四类公司本质上是基于自身资源禀赋在布局 AI 技术重塑产业后价值链重新分配的结构性机会,随技术能力边界逐步清晰后,有望进一步确定价值链的分配机制。2.3.2.3.主线主线 3 3:工具层适合中小公司入局,但模型与工具层边界有待清晰工具层适合中小公司入局,但模型与工具层边界有待清晰 MCPMCP、A2AA2A 协议推动产业链分化,工具协议推动产业链分化
55、,工具层层。基于上述模型、工具层的演化,我们推断工具层更适合中小公司入局,因为解决特定场景任务时:1)能够借助开源模型能力,算力需求相对小,开发难度低,入局门槛更低;此前插件模式一经推出后,曾涌现出许多插件产品,曾被视为模型的“App Store”时刻;2)易于积累垂直场景数据科技大厂的人力成本较为昂贵,无法穷尽所有的长尾场景,会给创业公司留出一定空间。行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。13 目前市场上涌现了许多 Agent 产品,覆盖代码、电商、教育等场景,一定程度上,类比移动互联网时代 app 应用爆发的场景。目前做得比较成功的场景,任
56、务定义明确且高度重复、模块化、场景注重信息检索,我们预计未来会逐步走入垂直场景,特别是一些大模型厂商不愿意入场的场景(可能是因为适用用户相对较少等),但深耕可以积累优势的场景,通常这些场景创业公司基于人力成本、组织灵活等优势才可以与科技大厂形成差异化。图图15.15.扣子空间合作客户案例扣子空间合作客户案例 资料来源:扣子空间、国投证券证券研究所 但是存在隐患但是存在隐患,模型与工具层的技术边界有待清晰。,模型与工具层的技术边界有待清晰。随着模型层能力提升,工具层能力可能会被模型吞噬,类似于 Jasper,因此模型与工具层的技术边界有待清晰,值得重点关注,对应地 Agent 工具的研发过程中需
57、要注重壁垒的构建,特别是数据壁垒、用户使用习惯的养成,不断提升用户的迁移成本。3.3.投资建议投资建议 1)利好算力基础设施,训练垂直场景中长尾模型算力、推理算力等需求将增长,关注商汤、阿里巴巴、腾讯;2)端侧硬件:手机、PC 等硬件终端支持 Agent 本地部署,对端侧算力要求提升,也将引来换机周期,关注小米集团;3)端侧芯片:手机等终端算力不足,对芯片性能仍有增长需求。4)To C:个人助手,关注现有 C 端应用、华为小艺等手机助手的升级迭代,关注小米集团、腾讯;5)To B:Mass 软件平台,用 AI 重塑 SaaS 等系统;私有化部署服务商,Agent 个性化需求解决仍不足,需要服务
58、商基于客户场景进行私有化定制,关注第四范式、商汤、云从科技等。4.4.风险提示风险提示 技术进展不及预期:技术进展不及预期:Agent 的发展依赖于底层基础模型等能力的提升,一旦其技术瓶颈短期无法突破,可能导致 Agent 产品的可用性较差,无法达到商业化标准。行业竞争加剧:行业竞争加剧:此轮 AI 竞争门槛较高,需要大算力及高密度人才,因此大厂相对具有竞争优势,对行业内的其他厂商造成竞争压力,影响其获客能力。商业模式变化:商业模式变化:Agent 产业仍处于商业发展早期,商业模型还不成熟、稳定,商业模式的调整可能会对产业链上各方利益分配产生影响,导致部分公司业绩受损。行业分析行业分析/传媒传
59、媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。14 行业行业评级体系评级体系 收益评级:领先大市 未来 6 个月的投资收益率领先沪深 300 指数 10%及以上;同步大市 未来 6 个月的投资收益率与沪深 300 指数的变动幅度相差-10%至 10%;落后大市 未来 6 个月的投资收益率落后沪深 300 指数 10%及以上;风险评级:A 正常风险,未来 6 个月的投资收益率的波动小于等于沪深 300 指数波动;B 较高风险,未来 6 个月的投资收益率的波动大于沪深 300 指数波动;分析师声明分析师声明 本报告署名分析师声明,本人具有中国证券业协会授予的证券投资咨询执业资格,
60、勤勉尽责、诚实守信。本人对本报告的内容和观点负责,保证信息来源合法合规、研究方法专业审慎、研究观点独立公正、分析结论具有合理依据,特此声明。本公司具备证券投资咨询业务资格的说明本公司具备证券投资咨询业务资格的说明 国投证券股份有限公司(以下简称“本公司”)经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本公司及其投资咨询人员可以为证券投资人或客户提供证券投资分析、预测或者建议等直接或间接的有偿咨询服务。发布证券研究报告,是证券投资咨询业务的一种基本形式,本公司可以对证券及证券相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制作证券研究报告,并向本
61、公司的客户发布。行业分析行业分析/传媒传媒 本报告版权属于国投证券股份有限公司,各项声明请参见报告尾页。15 免责声明免责声明 本报告仅供国投证券股份有限公司(以下简称“本公司”)的客户使用。本公司不会因为任何机构或个人接收到本报告而视其为本公司的当然客户。本报告基于已公开的资料或信息撰写,但本公司不保证该等信息及资料的完整性、准确性。本报告所载的信息、资料、建议及推测仅反映本公司于本报告发布当日的判断,本报告中的证券或投资标的价格、价值及投资带来的收入可能会波动。在不同时期,本公司可能撰写并发布与本报告所载资料、建议及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,本公司将
62、随时补充、更新和修订有关信息及资料,但不保证及时公开发布。同时,本公司有权对本报告所含信息在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。任何有关本报告的摘要或节选都不代表本报告正式完整的观点,一切须以本公司向客户发布的本报告完整版本为准,如有需要,客户可以向本公司投资顾问进一步咨询。在法律许可的情况下,本公司及所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易,也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务,提请客户充分注意。客户不应将本报告为作出其投资决策的惟一参考因素,亦不应认为本报告可以取代客户自身的投资判断与决策。
63、在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议,无论是否已经明示或暗示,本报告不能作为道义的、责任的和法律的依据或者凭证。在任何情况下,本公司亦不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告版权仅为本公司所有,未经事先书面许可,任何机构和个人不得以任何形式翻版、复制、发表、转发或引用本报告的任何部分。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“国投证券股份有限公司证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本报告的估值结果和分析结论是基于所预定的假设,并采用适当的估值方法和模型得出的,由于假设、估值方法和
64、模型均存在一定的局限性,估值结果和分析结论也存在局限性,请谨慎使用。国投证券股份有限公司对本声明条款具有惟一修改权和最终解释权。国投证券证券研究所国投证券证券研究所 深圳市深圳市 地地 址:址:深圳市福田区深圳市福田区福华一路福华一路 1 11 19 9 号安信金融大厦号安信金融大厦 3333 层层 邮邮 编:编:51804518046 6 上海市上海市 地地 址:址:上海市虹口区杨树浦路上海市虹口区杨树浦路 168168 号国投大厦号国投大厦 2828 层层 邮邮 编:编:200082200082 北京市北京市 地地 址:址:北京市西城区阜成门北大街北京市西城区阜成门北大街 2 2 号楼国投金融大厦号楼国投金融大厦 1515 层层 邮邮 编:编:100034100034