《A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf》由会员分享,可在线阅读,更多相关《A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、蒋文嘉西湖大学 AGI 实验室QECON专用目录CONTENTSLLM与Agent背景0102现阶段难点与挑战GUI智能体 AppAgent03降本增效的 AppAgentX04QECON专用基于LLM的Agent传统 LLM 与人进行简单交互(单一环境交互)1.可以与环境有限互动,强依赖prompt2.能完成简单的问答任务,无法处理复杂的多模态数据Agent 具备感知与行动能力(与环境持续交互)1.可以循环的完成对环境的感知,并作出反应2.自主规划、反思、决策和执行QECON专用比较维度LLM 模型Agents知识来源仅限于训练数据中的内容,无法访问外部实时信息。通过集成外部工具和系统,扩展
2、了知识获取能力。交互与上下文管理基于单轮查询,不具备会话或上下文管理能力。可以管理会话历史,支持多轮推理与复杂任务处理。工具集成能力本身不具备工具调用机制,需用户额外设计。原生支持工具集成,能够调用各种工具执行任务。逻辑与推理能力没有原生逻辑层,需通过提示词或外部框架设计逻辑。内建认知架构,支持链式思维(CoT)、反思-行动(ReAct)等推理框架。LLM 模型 vs.AgentQECON专用Agent架构Google AI Agent 白皮书QECON专用AI 智能体的演进决策感知执行AI Agent 是基于大语言模型(LLM)能感知环境并自主决策、采取行动以实现目标的自主系统,由传感器、控
3、制中心等核心组件构成,可在物理或数字环境中运行,通过接收用户输入、感知环境、决策规划、执行动作来改变环境。QECON专用Agent需求与挑战从理想到现实,我们还缺少什么?近年来,AI Agent 技术快速发展,从 LLM 问答到自主执行任务。然而,现实中的 AI Agent仍远不如人类期待。大家想象中的Agent 强自主性 持久记忆 灵活适应复杂任务然而,目前多数智能体仍是增强版Chatbot,仅能完成静态指令,而无法自主学习或适应环境变化。学界和业界的挑战?缺乏长期记忆和规划能力?无法处理动态变化的任务?推理计算成本高学术界探索新算法提升智能性,而企业则聚焦如何落地应用,如办公自动化、智能客
4、服等。QECON专用Agent路线的异同VS类人操作通用性强AppAgentXWebVoyagerGUI Agent高效开发者友好ManusApple IntelligenceAPI Agent与其为不同场景指定不同的工具,不如让Agent学会使用现有的所有软件。与其为不同场景指定不同的工具,不如让Agent学会使用现有的所有软件。QECON专用Why GUI?自然语言与图形界面的桥梁:GUI 作为 Agent 行为的“输入输出”对象,使 LLM 能将语言描述映射为图形操作。用户行为习惯迁移:GUI 承载了人类熟悉的操作范式(点击、滑动、切换),易于模拟与模仿。高可解释性与低歧义性:图形界面中
5、控件具备语义标签与结构布局,有利于 Agent 进行目标定位与动作执行。QECON专用智能化的挑战解析LLM的输出User:I would like to play music,please tell me how to do it.LLM:.need to click the play button in the bottom right corner of the screen to play it and.QECON专用 Tap(element:int)Long_press(element:int)Swipe(element:int,direction:str,dist:str)Text
6、(text:str)Back()Exit()动作空间的设计QECON专用AppAgent:Multimodal Agents asSmartphone Users(CHI 25)QECON专用QECON专用AppAgent DemoQECON专用AppAgent DemoQECON专用如何让屏幕内容更高效地转化为LLM可理解的信息?传统的 AppAgent 使用 纯 DOM 树结构 实现元素定位:优点:结构清晰,解析快速,适用于规则化应用场景 局限:对动态布局和图层渲染敏感,缺乏语义理解能力AppAgent V2 引入增强方案:结构化解析+OCR 检测,融合视觉与语义信息,提高感知鲁棒性与适应