《大数据百家讲坛:2025年DeepSeek、Manus与AI+Agent行业现状报告(52页).pdf》由会员分享,可在线阅读,更多相关《大数据百家讲坛:2025年DeepSeek、Manus与AI+Agent行业现状报告(52页).pdf(52页珍藏版)》请在三个皮匠报告上搜索。
1、王吉伟 大数据百家讲坛第135期2025.03.29王吉伟,一本书读懂AI Agent:技术、应用与商业作者,AIGC&超自动化分析师,知名科技博客王吉伟频道创始人。多年来持续关注互联网+、IoT、产业互联网、产业升级及数字化转型,专注业务流程、人工智能、超自动化与RPA,致力于探索IOT时代产业升级新机会,为企业经营和创业创新提供前沿技术、商业模式及方法论的解读与分享。目前重点观察与研究AIGC、AI Agent及超自动化在各行业的落地应用与创业创新。已撰写各类文章上千篇,作品见诸内容平台、学术网站及杂志。前言:什么是AI AgentDeepSeek等推理模型对AI Agent的影响Manu
2、s通用智能体带来的行业启示AI Agent行业现状AI Agent如何影响企业经营前言:什么是AI Agent2023年3月AutoGPT横空出世,7月OpenAI的翁丽莲发表名为 LLM Powered Autonomous Agents的博文,详细介绍基于LLM的AI Agent,给出了AI Agent的理想技术架构。关于AI Agent(智能体)的概念很多,很多组织都给出了定义l 业务角度:业务角度:AI Agent是完全自主的系统,可以在较长时间内独立运行,使用各种工具来完成复杂的任务。l IBMIBM:AI Agent是指能够通过设计其工作流程并利用可用工具代表用户或其他系统自主执行
3、任务的系统或程序。l SalesforceSalesforce:AI Agent是一种人工智能(AI)系统,无需人工干预即可理解和响应客户查询。l ZapierZapier:AI Agent是可以在环境中自主操作的实体。它可以从周围环境中获取信息,根据这些数据做出决策,并采取行动来改变这些环境-物理、数字或混合环境。l AnthropicAnthropic:Agent是LLM动态指导自己的流程和工具使用的系统,保持对如何完成任务的控制。详见图书第2.2.3小节今天我们所说的主要是基于大语言模型的AI Agent(LLM based Agent),其最简单的表达式如下:感知:AI Agent 从
4、环境中收集信息并从中提取相关知识的能力。规划:AI Agent 为了某一目标而做出决策的过程。行动:AI 基于环境和规划做出的动作基于大语言模型的AI AgentPPA:感知(Perce-ption)规划(Planning)行动(Action)由复旦大学NLP团队提出的AI Agent 定义已经得到产学研等各界的认可。AI AgentAI Agent是一种能够感知环境、进行决策和执行是一种能够感知环境、进行决策和执行动作的智能实体。动作的智能实体。详见图书第2.2.2小节基于大语言模型的AI Agent(LLM Based Agent)任务型对话Agent开放域对话Agent知识问答Agent
5、对话型对话型AgentAgent个人助理Agent工作助理Agent教育助理Agent智能助理智能助理AgentAgent商品推荐Agent内容推荐Agent社交推荐Agent推荐类推荐类AgentAgent更多类型Agent参考图书第1.3节PPAPPA表达式看着简单,实则包括万象:表达式看着简单,实则包括万象:感知:视觉、听觉、嗅觉、味觉、触觉、平衡感规划:目标设定、信息收集、问题分析、方案生成、决策制定、资源分配行动:利用技术工具、合作与沟通、创新思维、分步执行、适应性行动感知、规划与行动的每一个元素与维度,对应于智能体都是具体的应用场景,这些元素、维度与场景都可以无限的细分与挖掘。每一
6、个元素、维度与场景的实现都会用到相应的技术、工具与资源,会催生出大量的技术、产品、解决方案与响应的企业,产业链上各个玩家均能受益。2023年3月AutoGPT横空出世,7月OpenAI的翁丽莲发表名为 LLM Powered Autonomous Agents的博文,详细介绍基于LLM的AI Agent,给出了AI Agent的理想技术架构。关于AI Agent(智能体)的概念很多,很多组织都给出了定义l 业务角度:业务角度:AI Agent是完全自主的系统,可以在较长时间内独立运行,使用各种工具来完成复杂的任务。l IBMIBM:AI Agent是指能够通过设计其工作流程并利用可用工具代表用
7、户或其他系统自主执行任务的系统或程序。l SalesforceSalesforce:AI Agent是一种人工智能(AI)系统,无需人工干预即可理解和响应客户查询。l ZapierZapier:AI Agent是可以在环境中自主操作的实体。它可以从周围环境中获取信息,根据这些数据做出决策,并采取行动来改变这些环境-物理、数字或混合环境。l AnthropicAnthropic:Agent是LLM动态指导自己的流程和工具使用的系统,保持对如何完成任务的控制。详见图书第2.2.3小节大模型聚焦语言处理,以文本交互被动响应指令,应用于内容生成等场景;AI Agent以LLM为核心,具备多模态交互和自
8、主执行能力,可完成跨场景复杂任务。还有很多人在问,AI Agent与大模型的区别。两者的区别,可以体现在以下几个方面:l 定义与目标:大模型(如GPT)专注语言理解与生成,通过海量数据训练掌握文本处理能力;AI Agent以LLM为“大脑”,能自主感知环境、规划任务并执行动作,实现复杂任务闭环。l 核心能力:大模型被动响应指令,以文本交互为主;AI Agent主动执行任务,具备多模态交互(语音/图像)、动态学习和工具调用能力(如API操作)。l 应用场景:大模型用于内容生成、客服问答;AI Agent应用于供应链优化(阿里仓储Agent)、医疗分诊(腾讯车载系统)、实时决策(自动购物)等跨场景
9、任务。l 技术实现:大模型依赖Transformer架构与高算力;AI Agent需叠加规划、记忆模块及工具接口,形成“感知-决策-行动”闭环。l 局限性:大模型无法自主执行跨场景任务;AI Agent需解决工具可靠性(API兼容性)和动态环境适应(任务中断处理)等工程难题。030302020101AI Agent的终极设计目标是要打造真正自主执行各种任务并能够学习进化的智能体,但限于当前大语言模型及AI Agent本身的技术限制,目前还达不到这个目标。多智能体(multi-agent)也是智能体在复杂业务场景应用的解决方案,把一个复杂场景分解为多个简单任务,让不同角色的智能体去执行不同的任务
10、,并且这些任务还可以无限的细分下去,让更多的智能体调用不同的工具去执行,进而产生了智能体网络(Agentic Web),并衍生出群体智能(Swarm Intelligence)。要解决这个问题,要么实际把大场景跨应用的业务细分化,针对细分场景设计智能体,因此产生了垂直智能体。垂直智能体可以垂直于业务场景,也可以垂直于一行细分领域,但垂直于一个领域的更有可能是多智能体。从单智能体到多智能体吴恩达教授提出的智能体设计方法有四种:反思(Reflection)、工具使用(Tool Use)、规划(Planning)和多智能体协作(Multi-agent Collaboration),多智能体协作正是其
11、中之一。从这四种设计方式而言,现在的大语言模型尤其是推理模型能够反思、规划和进行简单的工具使用,都可以算是智能体。详见图书第14.5小节智能体的四种设计方式受限于当年的技术条件与企业复杂应用环境,这些智能体设计方式仍然不能满足企业需求,企业需要的是把大模型和智能体真正融入业务运营的流程中,Agentic workflow便应运而生。智能体的四种设计方式,也是把智能体的应用指向了工作流。现在,工作流编排已经能够成为智能体构建平台的标配,编排层也是智能体不可或缺的一部分。智能工作流Agentic workflow通过工作流编排把大模型、ERP、CRM等系统及API、数据等工具封装为智能体、AI应用
12、或者解决方案,可以解决大量的业务流程自动化,但仍然需要人工进行各种功能的预制构建,更像是一种LLM赋能的低代码工具,感觉这种方式很不Agent,距离自主智能体越来越远了,是不是?智能工作流 AgentAgentic workflow从技术圈到生业界,大家一直都在持续探索如何实现真正的自主智能体,直到前段时间Manus的出现,虽然到现在还拿不到邀请码,但它让大家看到了自主智能体的雏形,即便执行一个任务需要几十分钟乃至更长的时间。Manus号称全球第一个通用智能体,这个概念也跟着manus火了起来。但一些人并不认同,至于为什么,这点我们后面再讲。通用智能体(General AI Agent)通用智
13、能体(General AI Agent)目前通用智能体被看作是一种能够自主执行任务、进行复杂决策并适应多种环境的高级人工智能系统。从当前智能体产品形态来看,可以分为两类。一类是被称为computer use Agent的类似Manus的产品,采用大模型(推理模型+多模态模型)+API模式,通过屏幕截图来识别屏幕元素,以API接口调用各种工具执行任务。另一类是在RPA等流程自动化工具基础上融合AI Agent架构并把RPA当作超级工具的Agent,这类产品基于原有业务流程自动化技术的沉淀,适配大模型、RAG、屏幕识别等技术,实现智能体流畅操作电脑上各种应用。受大模型能力、技术架构、工作模式等因素
14、的影响,目前第一类通用AI Agent在体验上并不是很好,等待时间长,任务执行能力差,效果不可控。第二类通用AI Agent因为RPA本身就已经与PC、手机等终端有了很好的融合与适配,体验上比前者要好很多DeepSeek等推理模型对AI Agent的影响前面简单介绍最近两年AI Agent发展的基本路径。其实所有问题的原点,最终还要回到大模型上。LLM Based Agent的能力与功能取决于LLM的性能,如果大模型能力足够强大,智能体也就能做到胜任更多业务场景。当然大模型足够强大了,可能也就不需要智能体了,这个涉及到了模型即应用,后面会讲。所以像DeepSeek R1、通义千问 QwQ-32
15、B、文心一言 X1、混元 T1这样的高质推理模型的出现,对AI Agent性能与功能的提升有着很大的赋能,这里总结了几点。技术方面:技术方面:DeepSeek 让AI Agent的推理与决策能力提升,规划与执行能力增强,工具调用能力提升,自动化与拟人化交互能力升级,多模态与个性化能力拓展,结合多模态模型,DeepSeek 可以推动AI Agent实现更自然的“五感”交互,也为具身智能的发展奠定基础。设计模式:设计模式:AI Agent有四种主流模式,反思、工具使用、规划和多智能体协作,毫无疑问推理模型可以大幅提升AI Agent的反思能力和规划能力,能通过思考推理调用或者创造更合适的工具,也能
16、更合理地定义智能体职能角色并为它们分配更合适的任务,这样智能体的执行能力会大大加强。应用方面:应用方面:DeepSeek支持本地化部署,可以让使AI Agent在离线环境下仍能运行,保障数据隐私。并且基于deepseek等推理模型的AI Agent可以打破标准化边界,不仅适用于标准化场景,DeepSeek的高阶思维能力推动它向战略决策、复杂业务流程优化等非标领域延伸。开发和部署:DeepSeek采用开源技术路线,降低了企业训练和调优成本,使中小开发者能够以更低的成本专注AI Agent开发,以加速AI Agent的多样化创新,提升市场竞争力。再就是算力和成本优化方面,通过算法创新(如思维链技术
17、)和训推范式革新,DeepSeek在保持性能的同时显著降低算力消耗,为大规模Agent部署提供经济可行性。用户体验:用户体验:DeepSeek等推理大模型可以让AI Agent与用户进行更自然、更智能的对话。比如在客户服务场景中,AI代理可以使用DeepSeek的模型更好地理解复杂查询并提供准确回应,从而提升用户体验。产业生态:产业生态:AI Agent作为上层应用,有了deepseek等大模型的加持,会形成以推理大模型为核心的分层技术生态,推动跨行业协作与标准化。并且企业能够通过快速接入DeepSeek快速实现数据价值挖掘。市场格局:DeepSeek的技术突破推动中国从AI规则接受者转变为标
18、准共治者,其开源策略和国产化优势可能重塑全球AI Agent市场的竞争与合作模式。Manus通用智能体带来的行业启示多代理协同架构:多代理协同架构:规划代理通过MCTS算法拆解任务为DAG结构,执行代理调用工具链完成操作,验证代理检测逻辑矛盾并核对数据源。模型调度与优化:模型调度与优化:整合Claude 3.5、DeepSeek等模型,降低调用成本,支持高并发任务调度,任务执行准确率达98%。动态任务调度引擎:动态任务调度引擎:动态分配算力资源,支持边缘计算与云端协同,响应时间控制在50ms以内,记忆模块优化后续任务路径。安全与稳定支撑:安全与稳定支撑:采用联邦学习保障数据隐私,拦截恶意攻击,
19、异常处理模块自动修正偏差,确保任务执行成功率。Manus的技术构成可分为四个核心模块与实现机制 Manus技术架构通过 工具链整合优化 而非底层模型创新,实现了从任务理解到结果交付的全链路自主执行,同时兼顾效率与成本优势。从官方视频展示来看,Manus可以用于零售与电商、金融、教育与研究等领域的多种应用场景。我在书里介绍了智能体在多个领域的应用,在技术部分提到了相关技术架构,在智能体技术发展趋势和应用发展趋势方面也有介绍多智能体,可以帮助读者理解这种智能体。Manus在工程化方面下了很大功夫,率先产品化了,能够一步到位给与用户想要的直接结果。可以给到普通用户更多智能体应用的感知和更好的体验,这
20、是目前依托那些智能体平台构建的智能体尚未实现的,也是需要努力方向。图:Manus运行效果(点击看大图)产业协作革新:产业协作革新:多智能体协同架构突破单一AI局限,模拟人类团队分工,推动金融、医疗等场景全流程自动化升级;分布式资源调度降低推理成本,支持实时决策。技术创新转型:技术创新转型:优先工程化整合,未自研底层模型;支持动态训练与崩溃恢复,为AI优化提供新方法。开源生态协同:开源生态协同:技术壁垒转向工具链整合,开源加速通用智能体在多领域渗透。一些典型的项目,比如Openmanus、OWL、AutoMate 等都表现出了很强的发展潜力。伦理与治理挑战:伦理与治理挑战:数据隐私保护升级,就业
21、结构深度调整,要求教育体系适配新技能需求。Manus的出圈也证明了能够自主执行相对复杂任务的智能体在现阶段是可行的,虽然需要耗费很多的token和时间。接下来肯定会有更多同类产品出现,也会进行更多优化与迭代。加上大语言模型快速发展,今年内这类智能体体验应该能有很大提升。Manus技术架构通过 工具链整合优化 而非底层模型创新,虽然大家对它的评价褒贬不一,但作为通用智能体还是为行业带来了不少的启示图:Manus运行效果图(点击看大图)AI Agent行业现状 应用现状:B端应用倾向知识库,C端应用琳琅满目头部企业采用“企业大脑”(企业知识库)架构,整合知识资产沉淀、业务流程数字孪生与安全合规底座
22、,构建端到端智能体服务。中小型企业偏好低代码平台(如Eko Fellou AI),通过可视化界面快速开发自动化工作流,构建周期缩短至3-5天。中型企业(100-2000 人)采用率最高达 63%,因其灵活性和需求迫切。LangChain State of AI Agents Report非科技行业(如金融、医疗)的采用率(90%)已接近科技行业(89%),显示出 AI Agent 的普适性。AI Agents:Current Status,Industry Impact,and Job Market Implications智能体智能体应用现应用现状状12345小型企业(4 人以下)AI Ag
23、ent 使用率增长迅速,从 2023 年 9 月的 4.6%升至 2025 年的 5.8%,反映了小型企业在资源有限下对 AI Agent 的依赖,以降低运营成本和快速扩展。个人用户使用的AI Agent,主要依赖Coze、文心智能体等AI Agent构建平台上Agent或者使用一些厂商提供的开箱即用AI Agent成品,部分用户使用一些支持AI Agent的AI应用客户端,还有一部分懂技术的用户会在本地部署一套包括大模型在内的AI Agent系统,比如Dify、Ragflow等。一些行业应用数据医疗保健行业医疗保健行业l AI 辅助放射学报告的生成将关键发现检测的准确性和速度提高了 20%(
24、NCBI,2018 年)。l AI Agent自动执行 89%的临床文档任务,显著提高医疗保健提供者的效率(NCBI,2023 年)。l 用于斑块检测的 CT 图像处理中的 AI Agent达到 97%的准确率,有助于心脏病的早期诊断(NCBI,2024 年)。人力资源行业人力资源行业l AI Agent可以将初始简历筛选所花费的时间减少 75%,使人力资源专业人员能够专注于战略计划(Odin AI,2024 年)。l 94%的人力资源专业人士认为,AI Agent通过识别最佳候选人来改进招聘流程(ScienceDirect,2023 年)。l 96%的人力资源领导者认为 AI Agent可以
25、提供个性化的学习和发展机会,培养一支更加敬业和熟练的员工队伍(Getodin.AI,2024 年)。l AI Agent通过自动化日常任务和提高流程效率来帮助降低 HR 的运营成本,从而节省高达 25%的成本(Getodin.AI,2024 年)。零售行业零售行业l 收入增长:69%使用 AI Agent的零售商报告说,由于个性化和预测分析的改进,收入显着增长(Statista,2024 年)。l 降低成本:利用 AI Agent提供客户服务的零售商的运营成本降低了 72%(Salesforce,2024 年)。l 增加收入:69%使用 AI Agent的零售商观察到年收入增加,其中一些报告增
26、长了 5%到 15%不等(Odin AI,2024 年)。金融行业金融行业l 高达 91%的财务专业人士对 AI Agent持中立态度,专注于他们在欺诈预防、风险评估和简化财务流程方面的作用。l 8%的人表示乐观,这凸显了 AI Agent提供个性化客户体验并通过实时分析改进决策的能力。l 82%的金融机构报告说,由于实施了 AI Agent,运营成本降低了(Odin AI,2024 年)。l 客户体验增强:34%的金融机构利用 AI Agent通过聊天机器人、虚拟助手和推荐系统改善客户体验(ScienceDirect,2024 年)。l 提高运营效率:43%的金融专业人士观察到使用 AI A
27、gent提高了运营效率(福布斯顾问,2024 年)。制造业制造业l 根据 HSO 的说法,AI Agent可以以 95%的准确率预测设备故障,显着减少停机时间和维修成本高达 40%。l AI Agent优化生产计划和调度,将生产吞吐量提高 20-30%,并将库存和人员成本降低高达 20%(Odin AI,2024 年)。l 分析实时数据流的 AI Agent可以及早检测到异常,将报废和返工成本降低 10-30%(Odin AI,2024 年)。l 实施 AI Agent可以将工厂生产力提高多达 50%,并将生产吞吐量提高 20%(Odin AI,2024 年)。l AI Agent将产品开发时
28、间缩短了 30-50%,从而提高了产品性能并降低了成本(Odin AI,2024 年)。以实在Agent为代表的基于自动化技术的企业级通用智能体,代表了当前的企业应用生产力。以Manus为代表采用大模型(推理模型+多模态模型)+API模式通过屏幕截图来识别屏幕元素,以API接口调用各种工具执行任务的computer use智能体。通用型通用型AgentAgent产品现状:从企业级角度来其产品形态可以分为通用型、垂直领域专家型、企业级解决方案三个类别金融领域:摩根大通等机构部署的智能投顾系统,通过强化学习优化交易策略,错误率降低90%。医疗领域:创业慧康APTS系统实现患者全流程管理,早诊早治率
29、提升42%,同时支持影像识别与分诊报告生成一体化。零售领域:动态定价与AR购物助手推动用户转化率提升40%,库存成本降低30%36。垂直领域专家型Agent 低代码开发平台:钉钉AI助理覆盖70万家企业,支持通过自然语言生成自动化流程,开发周期缩短至3-5天。私有化部署:京东云、微软等头部企业提供定制化智能体服务,京东云智能体数量超7000个,微软企业客户达10万家。企业级解决方案企业级解决方案 AI Agent的产品及服务形态,主要有以下几种内容生成助手:内容生成助手:利用LLM生成能力,根据用户需求生成文章、视频、音乐、代码等内容。知识助手:知识助手:通过LLM的检索增强生成方案,结合私有
30、知识库,提供基于自然语言的对话 式企业私有知识访问。案例:LangChain-Chatchat(RAG应用构建平台)和FastGPT(商业运营SaaS应用)。数据分析助手:数据分析助手:利用LLM的自然语言转数据分析能力,进行数据获取、分析和可视化。案例:DB-GPT(多场景交互数据分析项目)、OpenAgents-Data Agent(本地结构化数 据文档分析项目)。工具使用助手:工具使用助手:根据用户需求智能使用API、数据库、互联网平台等工具。案例:LangChain-Agent(Agent组件)和OpenAI-Assistants API(构建AI助手的API)。WebWeb操作助手:
31、操作助手:利用LLM的自动化网络浏览、操作与探索能力,简化Web浏览访问与操作。案例:perplexity、秘塔等AI搜索引擎以及Agent构建平台上的AI Agent应用 工作流助手:工作流助手:结合上述基础Agent能力,自主规划与分解任务,设计任务步骤,并智能 使用各种工具完成任务。案例:OpenAI-Codex(代码生成助手)和OpenAI Playground(AI助手构建平台)。这部分详细内容,在图书12章商业模式部分可以看到。常见Agent产品包括聊天助手、编码助手、AI搜索等当前的AI Agent具有以下产品通性0101ChatGPT、Kimi、通义千问等基于大语言模型的聊天机
32、器人,目前增加了工具使用、推理等功能,它们现在都算是综合应用类的AI Agent。0303C端产品目前常见的是各AI Agent构建平台上用户构建的各种产品,除了Cursor等风靡一时的编码类Agent及perplexity等AI搜索,C端还没有出现多少爆款Agent应用。0505目前来看,第一波AI Agent红利出现在B端,因为企业需要更加安全可信可控的智能体,鉴于大语言模型目前仍存在很多问题,在有软件架构基础上集成Agent的企业级产品会更受广大组织的器重。0202AI搜索、编码助手是比较成功的AI Agent产品,目前传统搜索引擎以及创业类项目都推出了相关的产品。0404还有很多厂商也
33、是将AI Agent的开发和应用放到的B端,为用户提供企业级的AI Agent解决方案。当然企业软件厂商也瞅准了这波机会,纷纷推出了各自的AI Agent产品与解决方案。0606市面上的AI Agent大多基于特定知识库或数据构建,虽在问答交互方面表现出色,但在程序联动和操作方面存在局限,例如无法直接操作ERP系统。智能体构建平台产品,已经成为智能体应用构建与承载的中流砥柱。更多智能体平台面向开发者,普通用户想要构建想要的智能体还有门槛,当然用起来没有问题。Coze等智能体构建平台初步把智能体改造成了基于LLM的低代码平台,低代码平台也正在积极融合Agent技术升级为Agent构建平台。很多问
34、答助手都晋级为能够搜索能调用简单工具的增强型问答助手,成为AI Agent。2年前我讲的大模型Agent化,现在叫作大语言模型即应用(即服务),是当前的主流话题。大模型都具备较强的推理能力后,DeepReasearch成为大模型Chatbot和搜索引擎的标配功能。当然大部分产品是在原有产品上使用了Agentic RAG等技术,OpenAI的DeepReasearch则采用了专门训练的模型。知识库类的copilot产品,目前都具备搜索、文本处理等功能,后面很有可能会迭代出Agent模式。语音类Agent与web Agent,将会成为今年爆发的新品类。在各种新技术的加持下,现在任何应用场景都能构建
35、AI Agent。产品现状:产品动态与发展趋势 Agent市场由主要科技公司和越来越多的初创公司主导,竞争环境激烈。AI Agent 市场正在显著扩展,主要受到自动化和效率需求的推动。marketsandmarkets报告数据显示,该市场从 2024 年的 51 亿美元增长到预计 2030 年的 471 亿美元,复合年增长率为 44.8%。初创公司和细分市场参与者:CB Insights 市场地图识别出超过 170 家初创公司,包括 Harvey,该公司在 2025 年 2 月以 30 亿美元估值融得 3 亿美元,专注于法律 AI 代理 The AI agent market map。其他值得
36、注意的初创公司包括 CrewAI(40%的财富 500 强企业使用其多代理协调功能)和 ServiceNow(最近推出 AI Agent Orchestrator,用于自定义代理部署)市场格局:大企业不断加码,创业项目不断涌现大公司的各种动作,最能彰显技术及市场动向。最近几个月科技巨头公司在AI Agent方面动作频频,有些公司已经取得了不错产品成果与市场进展。头部的大语言模型创业公司,也都在重点开拓AI Agent领域。Nvidia、苹果、IBM、Salesfoce、Oracle、SAP、Intel、Cisco大公司的各种动作,最能彰显技术及市场动向。最近几个月科技巨头公司在AI Agent
37、方面动作频频,有些公司已经取得了不错产品成果与市场进展。头部的大语言模型创业公司,也都在重点开拓AI Agent领域。华为、美团、京东、小米、荣耀、Vivo、联想、月之暗面2024年6月 New Economies AI Agent全景图:随着更多AI Agent产品与解决方案的推出,越来越多涉足AI Agent的公司与创业团队浮出吹面,AI Agent的行业版图也在逐渐清晰。左边是New Economies绘制的6月份市场全景图,右边insight partners给出的12月市场全景图。2024年12月 insight partners 图源:2024年4月 甲子光年中国AI Agent
38、行业研究报告 AI Agent全景图:随着更多AI Agent产品与解决方案的推出,越来越多涉足AI Agent的公司与创业团队浮出吹面,AI Agent的行业版图也在逐渐清晰。左边生态图谱来自甲子光年4月份报告,右边来自infoQ第二季度报告。智能体应势而生:单从AI Agent构建平台来说,5月份王吉伟频道盘点了全球80多个Agent构建平台,现在的数量已经远远超过这个数字,国内就已经有十数个。详见公众号文章AI智能体构建智能未来,全球80+AI Agent构建平台大盘点。图源:2024年第二季度 infoQ中国Al Agent应用研究报告 大语言模型(LLM)是AI Agent的核心,提
39、供强大的自然语言处理能力,支持多语言和多领域任务。AI Agent具备多模态能力,整合图像、音频和视频处理,适用于智能家居、医疗诊断和内容创作。AI Agent通过高级规划和推理技术进行自主决策,能够调用外部工具和API,扩展其功能。AI Agent 现可调用外部工具和 API,如搜索引擎、数据库或软件接口,显著扩展其功能。记忆和学习机制使其能够存储和检索信息,增强学习能力。AI Agent的架构通常包括感知、认知和行动三个组件,支持多种分类和多代理协作。技术现状:经过几年的发展,AI Agent的技术进步依赖于多个核心技术特征,这些特征定义了其功能和应用范围。核心技术特征描述大语言模型(LL
40、M)LLM 是 AI Agent 的核心,提供强大的自然语言处理能力。模型如 OpenAI 的 GPT-4o、谷歌的 Gemini 2.0 和 Anthropic 的 Claude 3.5 通过大规模预训练和微调,支持多语言和多领域任务。功能包括理解复杂指令、生成上下文相关的响应和对话管理,广泛用于聊天机器人和任务助手。多模态能力当前 AI Agent 已突破文本限制,整合图像、音频甚至视频处理能力。例如,谷歌的 Project Astra 可通过智能手机摄像头实时分析环境,OpenAI 的 Deep Research 支持图像与文本结合的研究任务。多模态技术的进步得益于 Transforme
41、r 架构的扩展和多源数据的联合训练,适用于智能家居、医疗诊断和内容创作。自主决策AI Agent 使用高级规划和推理技术进行决策和任务执行,框架如 ReAct(Reasoning and Acting)和链式思维(chain of thought)帮助逐步解决问题。例如,Anthropic 的 Claude 可自主导航网页并完成表单填写,Cognition Software 的 Devin 可独立编写代码、测试和修复 bug。工具使用与外部集成AI Agent 现可调用外部工具和 API,如搜索引擎、数据库或软件接口,显著扩展其功能。例如,OpenAI 的 Agents SDK 支持无限工具集
42、成,谷歌的 Gemini 2.0 原生支持工具使用。这一特征使 AI Agent 能够执行超出其内在能力的任务,如查询实时数据或控制智能设备。记忆和学习AI Agent 利用记忆机制存储和检索信息,增强学习能力。技术如检索增强生成(RAG)集成外部知识库,提升准确性。记忆功能支持长时间上下文保持,例如 Claude 3.5 的上下文窗口达数十万 token,适合需要历史信息的任务。架构与分类AI Agent 通常包括感知(输入处理)、认知(决策)和行动(任务执行)三个组件。分类包括反应式 Agent(即时响应)、基于模型的 Agent(预测规划)和学习型 Agent(自适应优化)。多代理系统(
43、如 OpenAI Swarm)允许多个 Agent 协作,模拟团队合作。增强多模态交互:更好地处理视频、3D数据和触觉输入,应用于智能家居、医疗诊断和虚拟现实等领域。例如,Meta的Llama 3支持多模态输入,扩展了应用场景。提高自主性和可靠性:使AI Agent更独立,减少错误,专注于复杂任务的自校正和鲁棒性。例如,Anthropic的Claude 3.5强调安全性和可靠性,适合企业关键任务。多Agent协作:开发多代理系统,多个AI Agent合作完成共同目标,模拟人类团队协作。例如,OpenAI的Swarm平台支持多Agent协同优化供应链。边缘计算与端侧部署:将AI Agent部署到
44、智能手机、PC等边缘设备,提升隐私和响应速度。例如,苹果的Siri正在向端侧处理方向发展。可解释性和信任:增强决策过程的透明度,开发解释性AI技术以构建用户信任。例如,IBM的Explainable AI工具帮助用户理解Agent决策。个性化与适应:根据用户偏好和行为调整AI Agent,提供定制化体验。例如,亚马逊的Alexa通过学习用户习惯优化交互。技术现状:AI Agent技术正朝着多个创新方向发展,以提升性能和用户体验。创新方向描述增强多模态交互未来将更好地处理视频、3D 数据和触觉输入,应用于智能家居、医疗诊断和虚拟现实。例如,Meta 的 Llama 3 支持多模态输入,扩展了应用
45、场景。提高自主性和可靠性让 AI Agent 更独立,减少错误,专注于复杂任务的自校正和鲁棒性。例如,Anthropic 的 Claude 3.5 强调安全性和可靠性,适合企业关键任务。多Agent协作开发多代理系统,多个 AI Agent 合作完成共同目标,模拟人类团队协作。例如,OpenAI 的 Swarm 平台支持多 Agent 协同优化供应链。边缘计算与端侧部署将 AI Agent 部署到智能手机、PC 等边缘设备,提升隐私和响应速度。例如,苹果的 Siri 正在向端侧处理方向发展。可解释性和信任增强决策过程的透明度,开发解释性 AI 技术以构建用户信任。例如,IBM 的 Explai
46、nable AI 工具帮助用户理解 Agent 决策。个性化与适应根据用户偏好和行为调整 AI Agent,提供定制化体验。例如,亚马逊的 Alexa 通过学习用户习惯优化交互。Deep ResearchDeep Research:Deep Research是OpenAI推出的一种研究工具,结合了语言模型和深度搜索能力,用于处理复杂的学术研究任务。此产品,启发了开源社区多个同类项目的开发。Model Context ProtocolModel Context Protocol:上下文协议是一种开放协议,用于标准化应用程序向大型语言模型(LLMs)提供上下文(数据)的方式。MCP是由Anthro
47、pic推出的协议,现在得到很多厂商和大模型的支持,就连OpenAI和微软最近也支持了。热门技术热门技术Agenic RAGAgenic RAG:一种结合检索增强(Retrieval)和生成(Generation)的技术,用于提升AI Agent的知识检索和生成能力。Compuer useCompuer use:AI Agent调用外部工具(如搜索引擎、数据库、API等)的能力。技术现状:这些当前的热门技术,可以多关注GUI AgentGUI Agent:一种能够与图形用户界面(GUI)交互的AI Agent,通过模拟用户操作来完成任务。AI Agent技术栈:AI Agent技术发展到现在,技
48、术生态基本已经成型,用于构建AI Agent的各种技术正在不断完善。左边是去年Aura Ventures整理的市场全景,右边是Letta在今年11月推出最新技术栈统计。图源:Aura VenturesThe Rise of Autonomous AI Agents;Debundling the Market Landscape图源:LettaThe AI agents stackAI Agent技术生态图:把翁丽莲的AI Agent框架图用技术和企业进行具象化,可以看到下面这张由 Activant Capital绘制的技术供应商角度的AI Agent生态系统图。图源:activant capi
49、tal,详见图书第15.2.4节 AI Agent技术进展:基于大语言模型的AI Agent技术,正在快速发展与迭代大语言模型发展前景图发展到2024下半年,大模型都向多模态发展,同时10月份OpenAI的o1模型开启了后训练时代,可推理、可视觉以及上下文协议等技术的应用,极大的推动了AI Agent在更多场景与领域的的应用。能够有效提升AI Agent长期记忆的RAG(Retrieval-Augmented Generation,检索增强生成)技术,已经在短短的几年内发展出多种技术架构,以下是其中的主流技术。七种流行的RAG技术架构可用的大型语言模型一般用例特定实现模型基础工具最终用户 UI
50、AI Agent技术进展:AI Agent技术框架不断推陈出新微软发布的部分AI Agent技术框架与解决方案技术社区推出的部分AI Agent技术框架技术框架技术框架/方案名称方案名称描述描述AutoGen微软研究院AI Frontiers Lab设计的开源框架,用于构建AIAgent系统,简化事件驱动的分布式Agent应用程序的创建和编排。Semantic Kernel微软的Agentic AI框架之一,提供构建和部署Agentic AI系统的基线架构。Azure AI Agent Service微软在Ignite 2024上宣布的一套功能丰富的托管能力,集成了所有企业需要的模型、数据、工
51、具和服务,以自动化任何复杂性的业务流程。Copilot Studio微软平台支持用户创建自主Agent,已正式进入预览阶段,能够与1400多个企业系统和数据源集成。预构建AI Agent微软发布了5款预构建AI Agent,包括SharePoint自定义个性化Agent、员工自助服务Agent、Facilitator Agent、Interpreter Agent和Project Manager Agent。Magnetic-One系统微软研究团队基于企业Autogen框架推出的系统,采用Agent等级结构,将管理Agent与专业Agent分工协作。TinyTroupe微软开源的实验性Pyth
52、on库,模拟具有特定个性、兴趣和目标的AI Agent,应用于多种商业场景。Azure AI Foundry SDK微软提供的低代码工具链,让开发者能够自定义、测试、部署和管理Agent,支持从25种预构建模板中选择,并与Azure AI集成。技术框架/方案名称 描述Project Astra通用AI助手研究原型,展示了全视、全听和全记忆的实验性AI助手功能。Multimodal Live API谷歌发布的API,具有实时音频、视频流输入以及使用多个组合工具的能力。Project Mariner多步骤任务AI Agent。JulesAI编程Agent。Game Agent游戏Agent。Age
53、ntspace谷歌云推出的服务,旨在创建和部署AI Agent,提供企业级多模态搜索Agent。谷歌发布的部分AI Agent技术框架与解决方案AI Agent开源项目与闭源项目:已经推出AI Agent技术框架、产品及解决方案的开源与闭源项目开源开源AI AgentAI Agent项目全景总览项目全景总览项目名称项目名称项目描述项目描述项目名称项目名称项目描述项目描述1Adala自主数据标注Agent框架56GPT DiscordDiscord的终极AIAgent集成2Agent4Rec拥有1000个Agent的推荐系统模拟器57GPT Engineer基于提示生成整个代码库3AgentFo
54、rge与大语言模型无关的Agent构建和测试平台58GPT Migrate在框架/语言之间迁移代码库4AgentGPT基于浏览器的无代码AutoGPT版本59GPT Pilot从头开始编写整个可扩展应用5AgentPilot在桌面应用中构建、管理和聊天的Agent60GPT Researcher在整个互联网上研究任何主题的Agent6Agents用于构建语言Agent的库/框架61GPT Runner与您的文件对话的Agent7AgentVerse用于任务解决和模拟Agent的平台62GPTSwarm可优化的语言Agent图8AI Legion类似AutoGPT的多Agent打字稿平台63IX
55、Agent构建、调试和部署平台9Aider使用命令行编辑本地仓库代码64JARVIS连接大语言模型和机器学习社区的系统10AIlice创建Agent调用树以执行任务65Langroid用于构建大语言模型应用的多Agent框架11AutoGen具有多样性的多Agent框架66Lemon Agent工作流程自动化的计划-验证-解决Agent12AutoGPT使GPT-4完全自主的实验性尝试67LLM Agents用于构建Agent、使用工具、规划的库13Automata基于项目上下文生成代码68LLM Stack构建大语言模型Agent的无代码平台14AutoPR修复问题的AI生成拉取请求Agen
56、t69Local GPT在不危及隐私的情况下与文档聊天15Autonomous HR Chatbot使用工具回答人力资源相关查询的Agent70Loop GPT作为Python包重新实现AutoGPT16BabyAGI使用AI管理任务的简单框架71L2MAC能够生成大型复杂代码库和整本书的Agent框架17BabyBeeAGIBabyAGI的任务管理和功能扩展72MaigeGitHub仓库的自然语言工作流18BabyCatAGIBabyBeeAGI的修改版73Magick用于创建、部署和变现Agent的AIDE19BabyDeerAGI仅约350行代码的BabyAGI修改版74MemFree开
57、源混合AI搜索引擎20BabyElfAGIBabyDeerAGI的修改版,约895行代码75MemGPT为大语言模型提供上下文的内存管理系统21BabyCommandAGI测试命令行界面和大语言模型组合的效果76Mentat从命令行辅助编码任务22BabyFoxAGI带有新的并行UI面板的BabyAGI修改版77MetaGPT返回设计、任务或仓库的Agent框架23BambooAI面向非程序员的数据探索和分析78Mini AGI基于GPT-3.5/GPT-4的通用Agent24BeeBot面向广泛任务的早期阶段项目79Multiagent Debate多Agent辩论的论文实现25Blinky
58、VSCode的开源AI调试Agent80Multi GPT实验性多Agent系统26Bloop适用于Rust和Typescript的AI代码搜索81MutahunterAI使用开源AI加速开发者生产力和代码安全27BondAI带有CLI和RESTful/WebSocket API的代码解释器82NLSOM基于自然语言的思维社会28bumpgen保持npm依赖项最新的AIAgent83OpenAgents多Agent通用平台29Cal.ai基于C构建的开源日程安排助手84OpenAGI研发Agent平台30CAMEL用于探索Agent思维的架构85OpenDevin代码更少,成果更多31Chat
59、Arena多Agent交互聊天工具86Open Interpreter允许大语言模型执行代码的代码解释器32ChatDev用于软件开发的通信Agent87Pezzo提示管理等的开发工具包33ChemCrow用于化学相关任务的LangChainAgent88Private GPT私密交互文档的工具34Clippy可以规划、编写、调试和测试代码的Agent89PromethAI帮助营养和其他目标的AIAgent35CodeFuse-ChatBot服务于整个软件开发生命周期的Agent90React Agent开源React.js自主大语言模型Agent36Cody by ajhous44查询和导航
60、您的代码库91Self-operating computer让多模态模型操作计算机37Cody by Sourcegraph编写代码并回答问题的Agent92Smol developer通过E2B UI部署的个人初级AI开发者38Continue软件开发的开源自动驾驶93Stackwise编写Node.js函数的VSCode扩展39CrewAI用于编排角色扮演Agent的框架94Superagent允许在不编码的情况下创建Agent的工具40data-to-paper从数据到可人工验证研究论文的AI驱动研究95SuperAGI开发和部署AIAgent的框架41Databerry(转向Chain
61、desk)无代码聊天机器人构建96Suspicion Agent关于不完美信息游戏的论文42DemoGPT生成任何目的的新应用演示97SWE AgentDevin的开源替代品43DevGPT虚拟开发者团队98Sweep修复问题并编写代码的GitHub助手44Devika智能软件工程师Agent99Taxy AI完整的浏览器自动化45DevonDevin的开源替代品100Teenage AGI受BabyAGI启发的Agent,可以回忆无限记忆46DevOpsGPTAI驱动的软件开发自动化解决方案101UFO专注于Windows操作系统的UIAgent47dotagent在云端、PC或移动设备上部
62、署Agent102Vanna.AI基于Python的AI SQLAgent,针对您的架构训练48Eidolon具有可插拔模块化组件的多AgentSDK103VoyagerMinecraft中由大语言模型支持的终身学习Agent49English Compiler将Markdown规范转换为功能代码104Web3 GPT为EVM区块链编写和部署智能合约50evo.ninja能够调整个性以实现任务的AIAgent105Westworld simulation多Agent环境模拟库51FastAgency部署多Agent工作流的最快方式106WorkGPT用于调用API的GPTAgent框架52Fl
63、owise低代码Agent构建器107Wren数据库的自然语言接口53FridayNode.js的AI开发助手108XAgent解决各种任务的实验性大语言模型Agent54GeniA工程平台工程AI团队成员109yAgents能够设计、编码和调试工具55Godmode受AutoGPT和BabyAGI启发,具有漂亮的UI110YourgoalBabyAGI的Swift实现闭源闭源AI AgentAI Agent项目全景总览项目全景总览项目名称项目名称项目描述项目描述项目名称项目名称项目描述项目描述1Ability AI安全、以人为中心的自主AIAgent54Graphlit用于使用AI构建应用的
64、API优先数据平台2Adept AI构建智能的机器学习研究和产品实验室55Grit自动化代码迁移和依赖项升级3AGENTS.inc用于公司/法规、搜索和监控的Agent56Gumloop使用AI自动化任何工作流4AgentScale您的助手、邮件撰写和日历调度员57Heights Platform面向课程创建者、社区建设者和教练5Aide by CodestoryAI代码解释器,VSCode的AI动力模式58Hex Magic使用数据完成令人惊叹事情的AI工具6AilaFlow构建AIAgent的无代码平台59Heymoon.ai帮助您掌控日历、任务和信息7Airkit.ai构建、测试和部署A
65、gent的平台60iMean.AI自动化浏览器任务的AI个人助手8Airplane AutopilotAirplane公司的自动驾驶AI助手61Input可以协作编码的AI驱动团队成员9Aomni为商业智能设计的AIAgent62Instrukt与AIAgent交互的终端环境10APIDNA用于API集成的多个AIAgent63Invicta构建您的第一个自主AIAgent团队11Artisian AI销售、电子邮件、簿记等领域的Agent64JuliusAI数据处理、分析和可视化12Ask Pandi搜索和生成知识的应答引擎65Kadoa使用AI自动网页抓取13AskToSell能够成交的自
66、主AI销售Agent66JunoAI主导的用户访谈,获取丰富的人类洞察14AskYourDatabase与SQL数据库聊天、探索和可视化数据67Kompas AI选择您的大语言模型并构建自定义对话Agent15Athena Intelligence7*24小时的企业AI数据分析师68KushoAPI测试的AIAgent16Avanzai用于投资组合风险和资产配置的AIAgent69Kwal招聘语音Agent17Bardeen自动化重复任务的AIAgent70Lindy可以帮助处理日常任务的AI助手18Beam自动化工作流的多种AIAgent71Lutra AI创建AI工作流和应用的平台19Bl
67、ackbox AI构建软件的软件72Magic Loops个人自动化变得简单20Blobr连接到所有工具的AI商业助手73Makedraft使用文本提示生成和编辑HTML组件21BrainSoup在您的电脑上为您工作的AI团队74Manaflow自动化技术业务工作流22broadn允许用户构建AI应用的无代码副驾驶75Minion AIGitHub Copilot创始人的项目,目前在等待列表中23Butternut AI构建全功能、随时可启动的网站76MultiOn使用MultiOn预订航班或点餐24B2 AI工作的AI自动完成助手77Mutable AIAI加速软件开发25ChatHelp商
68、业、工作、学习AI助手78Naut构建您自己的Agent,处于早期阶段26Claros AI Shopper根据您的品味查找产品的AI购物助手79NexusGPT几分钟内构建AIAgent,无需编码27Claygent从网络上抓取和总结数据的Agent80Othersides AI Assistant-Hyperwrite通用目的AIAgent的Chrome扩展28Code Autopilot您项目的AI助手81Phind个人编程和研究AI助手29Codegen解决工单、编写测试、提升工作流82Powerdrill AI以10倍速完成数据工作的AIAgent30CodeWPWordPress网
69、站的AIAgent83Proficient AI用于构建AIAgent的交互API和SDK31Codium AI面向开发者的多用途编码AI助手84Promptly企业生成式AI32Commit软件开发者的职业副驾驶和AIAgent85Q,ChatGPT for Slack面向资源不足的中小企业的Slack AI劳动力33CognosysAutoGPT或BabyAGI的基于Web的版本86Questflow无代码的自主AI工作者市场34ContextQA软件测试的AIAgent87Rebyte多AIAgent构建平台35Cursor带有VSCode类UI的AI驱动代码编辑器88Relevance
70、 AI构建您的AI劳动力36Cykel与任何UI、网站或API交互89Saga用于笔记、任务和工具的数字AI助手37Devin第一个AI软件工程师90Second代码的自动迁移和升级38Diagram被Figma收购的人人可用的AI设计工具91SentiusAgent操作浏览器为您完成任务39Docket AI复杂B2B销售的AI销售工程师92ShopPalAI助手,增强购物体验40DosuGitHub仓库AI队友,还帮助处理文档93Spell带插件的AutoGPTAgent41Dot帮助数据分析的虚拟助手94Superluminal产品数据仪表板的AI副驾驶42Duckie AIAI软件开发
71、伙伴团队(小鸭子们)95TalktoData数据发现、清理、分析和可视化43Ellipsis(原BitBuilder)自动代码审查和bug修复96Taskade创建、训练和运行自定义AIAgent44encode早期阶段的全自主AI软件工程师97ThinkChain AI金融AIAgent平台45Factory端到端构建软件的编码机器人98Test DriverGitHub上的QA AIAgent46Fine使用AIAgent构建软件99Tusk推送和测试代码的AI工程师47Fine Tuner(转向Synthflow)Agent的无代码平台100Vortic帮助保险销售和理赔的AIAgent
72、48Fixie创建大语言模型驱动AI应用的平台101v0 by Vercel基于Shadcn UI和Tailwind CSS获取React代码49Floode自动化通信琐事的执行Agent102Wispy内容摘要、内容创作、创建测验50GitHub Copilot XAI驱动的软件开发者103Wordware快速构建更好的语言模型应用51GitLab Duo软件开发生命周期每个步骤的AI104WorkBot您唯一需要的AI平台!52GitWit使用AI自动生成代码,测试版105Zapier Central与AI机器人密切合作53GoCharlie多模态内容创建自主Agent来源:e2b Git
73、hub仓库awesome-ai-agents 问题与不足:虽然AI Agent已经逐渐在很多领域实现商用,受限于现阶段的技术、生态、用户接受度等因素,仍然存在一些问题和不足。当前当前AI AgentAI Agent产品存在以下缺点和不足:产品存在以下缺点和不足:AI Agent存在交互能力局限。工程稳定性上存在随机输出和异常处理问题。安全性和隐私保护面临数据泄露和攻击风险。技术复杂性高,难以预测系统行为。集成到现有系统困难,用户接受度低,定制化难度大,数据依赖性强,且性能质量难以保证。问题说明交互能力局限AI Agent在语音、视觉理解互动能力上存在局限,传统“三段式”链路(ASR+LLM+T
74、TS)导致高延迟、交互僵硬、缺乏情绪等问题。工程稳定性问题AI Agent的输出内容和格式存在随机性,可能遇到陷入循环的问题,导致智能体不响应;同时可能遇到较多的异常case,需要对Agent框架进行异常处理和兜底。安全性与隐私保护挑战AI Agent需要访问大量数据,存在数据泄露风险;模型攻击和对抗样本可能使模型输出错误结果;社会工程攻击可能欺骗AI Agent执行错误操作。技术限制AI Agent算法复杂,需要高水平专业知识维护,且系统行为和决策结果难以预测。集成和兼容性挑战集成AI Agent到现有系统可能面临重构困难,增加时间和成本投入。用户接受度和信任问题用户可能不熟悉AI Agen
75、t,需要通过教育提高理解,增加接受度,建立信任。定制化难度高在生产环境中部署LLM和AI Agent面临定制化难度高、缺乏质量保证评估方法和可重复使用的基础设施。数据依赖严重AI Agent对数据依赖性强,缺乏数据时容易“迷路”,影响效果。性能质量问题性能质量是企业采用AI Agent时的首要关注点,AI Agent依赖LLM“黑盒”控制工作流程,带来不可预测性,增加了出错风险。将将AI AgentAI Agent部署到生产环境中面临关键挑战:部署到生产环境中面临关键挑战:定制困难、质量保证评估方法有限以及缺乏可重用的基础设施。碎片化的工具、集成问题和可扩展性问题使流程进一步复杂化,凸显了对简
76、单管道和强大支持工具的需求。图源:langbasestate-of-ai-agents报告AI Agent遇到的系列行业问题,可以参考图书第11章:AI Agent行业应用挑战。错误容忍度问题:在不同场景下的错误容忍度差异显著。例如在代码生成场景中错误容忍度极低(需专业程序员介入),而调研类场景容忍度较高。多任务场景下错误容易被累积放大,直接影响最终输出质量。记忆与上下文管理瓶颈:大模型依赖上下文窗口提供历史信息模拟记忆,但超大上下文窗口性能不足(如模型处理长文本时表现下降)。RAG技术面临嵌入质量与召回准确率的挑战,难以实现有效记忆。模型智能程度的限制:复杂场景下模型能力急剧下降,例如处理多
77、文件代码或隐含知识任务时失败率高。单次生成结果的质量直接影响Agent整体表现,模型需更高精度。自我评估能力的缺失:现有Agent缺乏结果自检能力,无法判断任务是否达到预期目标,需依赖外部反馈或人工干预。工具集成与协调难题:工具调用成功率低(约50%失败率),且缺乏统一协议标准化(如MCP被质疑适配性差)。跨环境操作能力不足,Agent难以自由切换不同应用软件(如浏览器与专业报表工具)。数据相关挑战:垂直领域样本稀缺,需依赖对比学习、元学习等技术,但数据合成成本高。多模态对齐困难,文本、图像、语音的异构性导致信息整合效率低。鲁棒性与安全性风险:生产环境中模型易受对抗样本攻击(如利用FGSM算法
78、生成的恶意输入),需引入验证机制降低风险。实时监控与热更新机制不足,难以应对数据分布偏移问题。面临的问题:AI Agent在应用已经取得了长足进步,但在AI Agent应用的初级阶段,仍然面临一些问题面临的挑战具体描述错误容忍度问题在不同场景下的错误容忍度差异显著,例如在代码生成场景中错误容忍度极低(需专业程序员介入),而调研类场景容忍度较高。多任务场景下错误容易被累积放大,直接影响最终输出质量。记忆与上下文管理难题大模型依赖上下文窗口提供历史信息和记忆,但超大上下文窗口性能不足(如模型处理长文本时表现下降),RAG技术面临输入质量与召回准确率的挑战,难以实现有效记忆。模型智能程度的限制复杂场
79、景下模型能力急剧下降,例如处理多文件代码或高含知识任务时失败率高。单次生成结果的质量直接影响Agent整体表现,模型需更高精度。自我评估能力的缺失现有Agent缺乏结果自省能力,无法判断任务是否达到预期目标,需依赖外部反馈或人工干预。工具集成与协调难题工具调用成功率低(约50%失败率),且缺乏统一协议标准化作业(如MCP规范渗透性差)。跨环境操作能力不足,Agent难以自由切换不同应用软件(如浏览器与专业报表工具)。数据相关挑战垂直领域样本稀缺,需依赖对比学习、元学习等技术,但数据合成成本高,多模态对齐困难,文本、图像、语音的结构性导致信息整合效率低。鲁棒性与安全性风险生产环境中模型易受对抗样
80、本攻击(如利用FGSM算法生成的恶意输入),需引入验证机制降低风险,实时监控与防更新机制不足,难以应对数据分布偏移问题。现在有一个很明显的趋势:模型即应用(服务),模型本身直接构成最终产品或服务,而非通过应用层(如API或第三方软件)二次开发。比如OpenAI的DeepResearch模型能够端到端自主完成研究报告生成,无需外部工具调用或人工干预,Claude Sonnet 3.7可直接完成复杂任务(如代码库管理)而非仅作为生成代码的工具,还有很多大模型推出的DeepResearch等功能。这个趋势,可能会造成2个结果:一是API时代将被终结,大模型厂商(如OpenAI、DeepSeek)将停
81、止对外提供API,转为直接提供模型作为产品,这个时间可能也就两年。二是应用层被大模型取代:原有“套壳应用”(Wrappers)会被模型厂商直接集成能力的功能淘汰。面临的问题:模型即应用是挑战也是机会应对“模型即应用”挑战的方法:一方面需转向自研模型,另一方面需要垂直领域专用模型的强化学习和推理结合,可直接解决现实场景问题,比如实在Agent就以塔斯大模型结合智能屏幕语义理解(ISSUT)和RPA技术,通过强化学习动态优化任务执行策略。AI Agent-Agentic workflow-Agentic AI:AI Agent向Agentic Workflow的发展以及Agentic AI的兴起,
82、正推动行业效率提升和数字化转型。这些技术改变了企业运营模式,改善了客户体验,并为决策支持和自动化服务带来革命性变化。同时,它们也延伸了应用价值链,改变了行业业态,尽管面临技术挑战,但为行业带来了前所未有的发展机遇。AI AgentAI Agent(智能体智能体):):AI Agent是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。它基于预设的目标或任务,在给定的环境中通过独立思考和调用工具逐步完成任务。AI Agent可以模拟人类对话,以自然且直观的方式与人类交互,并在多个领域提供个性化服务、优化业务流程、增强决策支持。Agentic WorkflowAgentic Workflo
83、w(智能体工作流):(智能体工作流):Agentic Workflow是指通过预定义的多步大型语言模型(LLM)调用静态完成任务的工作流。在这个工作流中,AI Agent作为一个自主驱动的动态问题解决器,用于处理复杂且不断发展的任务,从而提高工作效率。Agentic Workflow采用模块化设计,每个模块或组件负责特定的任务或功能,允许灵活地添加、更新或替换模块,以适应不断变化的业务需求和技术进步。Agentic AIAgentic AI(AgentAgent型人工智能):型人工智能):Agentic AI是AI具备自主性的能力和行为,代表了AI所能实现的顶峰独立行动、学习和适应的能力。Ag
84、entic AI不仅在技术上更为先进,在应用范围、决策能力、学习能力、交互方式、伦理考量、可解释性、安全性、跨领域应用和创新力等方面都展现出更高的要求和潜力。Agentic AI系统具有“Agent”功能,可做出决策、采取行动、解决复杂问题,并在训练机器学习模型的数据之外与外部环境进行交互,将大模型的通用性和灵活性与传统编程的精确性结合在一起。AI Agent如何影响企业经营 业务运营:自动化标准流程(如财务、供应链),提升效率40%-60%,降低错误率;处理海量数据辅助实时决策,结合多模态技术优化客户体验(如24小时智能客服、个性化推荐),驱动数字化转型。战略决策:提供精准市场洞察与风险评估
85、,动态调整策略(如贷款谈判、库存优化),支持数据驱动的科学决策。组织管理:重构岗位分工,推动人机协作(员工监督AI执行),强化HR与IT协同,优化培训体系;重塑组织文化,未来以AI为核心构建敏捷团队,要求员工聚焦复杂决策与创新。企业经营以优化流程、管理资源实现盈利与客户增长为目标。AI Agent可以系通过降本增效、风险管控与组织革新,成为企业竞争力升级的关键引擎,主要通过三个维度影响企业经营:影响方面具体体现提高效率和生产力自动化重复任务:AI Agent能够自动执行数据输入、文件处理、客户咨询等重复性任务,显著提高工作效率,减少人力成本。优化业务流程:通过实时监控和分析企业运营流程,AI
86、Agent可以发现瓶颈并提出优化建议,提升整体运营效率。增强客户体验智能客服:AI Agent提供24/7的客户服务,快速响应客户咨询,解决常见问题,提高客户满意度。个性化服务:通过分析客户数据,AI Agent能够提供个性化的服务和产品推荐,增强客户忠诚度。提升决策质量数据分析与洞察:AI Agent能够处理和分析海量数据,发现潜在的市场趋势和客户需求,为企业提供精准的决策支持。智能预测:通过机器学习和深度学习技术,AI Agent可以预测市场变化、客户需求和潜在风险,帮助企业提前制定应对策略。推动创新创意生成:AI Agent能够生成创意内容,如广告文案、产品设计等,激发企业内部的创新思维
87、。智能研发:在产品研发过程中,AI Agent可以协助进行设计优化、性能测试和故障诊断,加速研发周期。优化人力资源管理人才招聘:AI Agent可以通过分析简历和面试数据,快速筛选出合适的候选人,提高招聘效率。员工培训:AI Agent能够根据员工的技能和需求,提供个性化的培训计划,提升员工能力。增强风险管理风险预测:AI Agent能够通过数据分析预测市场风险、信用风险和运营风险,帮助企业提前制定应对策略。欺诈检测:在金融领域,AI Agent可以实时监控交易,识别欺诈行为,保护企业资产安全。推动数字化转型数据驱动的决策:AI Agent能够将企业的数据转化为有价值的洞察,推动企业从经验驱动
88、向数据驱动的决策模式转变。智能工作环境:AI Agent可以整合企业的各种信息系统,提供一个智能的工作环境,提高员工的工作效率和协作能力。提升企业竞争力快速响应市场变化:AI Agent能够实时监控市场动态,快速调整企业战略,保持竞争优势。差异化竞争优势:通过提供个性化服务和创新产品,企业能够在激烈的市场竞争中脱颖而出。成本优势:通过自动化和优化流程,企业能够降低运营成本,提高利润率。直接使用适合对数据隐私要求不高、希望快速接入AI能力的企业,尤其是中小型企业,可直接利用市场上现有的AI Agent服务,如实在Agent、Operator、Manus等,或在Coze等平台构建个性化AI Age
89、nt。客户端调用API适用于需将AI能力集成到现有系统的企业,通过调用第三方API接口,结合客户端工具如AnythingLLM、Cherry Studio等,开发智能客服、文档处理助手等应用。本地私有化部署适合对数据安全和隐私要求高的大型企业,可在本地环境中部署AI Agent,使用开源框架或自研技术构建技术闭环,如借助LangChain、OmniParserV2等开源项目进行部署。企业应用AI Agent主要有三种模式:直接使用、客户端调用API和本地私有化部署AI Agent给不会编程的普通人带来了更多机会,让大家能够通过自然语言构建个性化智能体应用,可以通过智能体提高个人生产力,可以把这些应用分享给别人使用,更可以通过智能体创业实现自己的梦想。最后,用一本书读懂AI Agent:技术、应用与商业封面引用比尔盖茨一句话结束我今天的分享。AI AgentAI Agent将来未来将来未来5 5年内彻底改变我们的生活年内彻底改变我们的生活我认为接下来每个人都应该拥抱AI Agent,成为时代领跑者。希望大家都能够更全面地认知和使用智能体,早日成为智能体时代的超级个体。王吉伟个人号王吉伟公众号王吉伟2025.03.29