A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf

上传人：可***

编号：710764

2025-05-28

PDF 44页 7.32MB

《A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf》由会员分享，可在线阅读，更多相关《A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf（44页珍藏版）》请在三个皮匠报告上搜索。

1、蒋文嘉西湖大学 AGI 实验室QECON专用目录CONTENTSLLM与Agent背景0102现阶段难点与挑战GUI智能体 AppAgent03降本增效的 AppAgentX04QECON专用基于LLM的Agent传统 LLM 与人进行简单交互（单一环境交互）1.可以与环境有限互动，强依赖prompt2.能完成简单的问答任务，无法处理复杂的多模态数据Agent 具备感知与行动能力（与环境持续交互）1.可以循环的完成对环境的感知，并作出反应2.自主规划、反思、决策和执行QECON专用比较维度LLM 模型Agents知识来源仅限于训练数据中的内容，无法访问外部实时信息。通过集成外部工具和系统，扩展

2、了知识获取能力。交互与上下文管理基于单轮查询，不具备会话或上下文管理能力。可以管理会话历史，支持多轮推理与复杂任务处理。工具集成能力本身不具备工具调用机制，需用户额外设计。原生支持工具集成，能够调用各种工具执行任务。逻辑与推理能力没有原生逻辑层，需通过提示词或外部框架设计逻辑。内建认知架构，支持链式思维（CoT）、反思-行动（ReAct）等推理框架。LLM 模型 vs.AgentQECON专用Agent架构Google AI Agent 白皮书QECON专用AI 智能体的演进决策感知执行AI Agent 是基于大语言模型（LLM）能感知环境并自主决策、采取行动以实现目标的自主系统，由传感器、控

3、制中心等核心组件构成，可在物理或数字环境中运行，通过接收用户输入、感知环境、决策规划、执行动作来改变环境。QECON专用Agent需求与挑战从理想到现实，我们还缺少什么？近年来，AI Agent 技术快速发展，从 LLM 问答到自主执行任务。然而，现实中的 AI Agent仍远不如人类期待。大家想象中的Agent 强自主性持久记忆灵活适应复杂任务然而，目前多数智能体仍是增强版Chatbot，仅能完成静态指令，而无法自主学习或适应环境变化。学界和业界的挑战?缺乏长期记忆和规划能力?无法处理动态变化的任务?推理计算成本高学术界探索新算法提升智能性，而企业则聚焦如何落地应用，如办公自动化、智能客

4、服等。QECON专用Agent路线的异同VS类人操作通用性强AppAgentXWebVoyagerGUI Agent高效开发者友好ManusApple IntelligenceAPI Agent与其为不同场景指定不同的工具，不如让Agent学会使用现有的所有软件。与其为不同场景指定不同的工具，不如让Agent学会使用现有的所有软件。QECON专用Why GUI？自然语言与图形界面的桥梁：GUI 作为 Agent 行为的“输入输出”对象，使 LLM 能将语言描述映射为图形操作。用户行为习惯迁移：GUI 承载了人类熟悉的操作范式（点击、滑动、切换），易于模拟与模仿。高可解释性与低歧义性：图形界面中

5、控件具备语义标签与结构布局，有利于 Agent 进行目标定位与动作执行。QECON专用智能化的挑战解析LLM的输出User:I would like to play music,please tell me how to do it.LLM:.need to click the play button in the bottom right corner of the screen to play it and.QECON专用 Tap(element:int)Long_press(element:int)Swipe(element:int,direction:str,dist:str)Text

6、(text:str)Back()Exit()动作空间的设计QECON专用AppAgent:Multimodal Agents asSmartphone Users（CHI 25）QECON专用QECON专用AppAgent DemoQECON专用AppAgent DemoQECON专用如何让屏幕内容更高效地转化为LLM可理解的信息？传统的 AppAgent 使用纯 DOM 树结构实现元素定位：优点：结构清晰，解析快速，适用于规则化应用场景局限：对动态布局和图层渲染敏感，缺乏语义理解能力AppAgent V2 引入增强方案：结构化解析+OCR 检测，融合视觉与语义信息，提高感知鲁棒性与适应

A3--蒋文嘉--驱动GUI智能体从智能化到高效化的实践探索.pdf

相关报告