当前位置:首页 > 报告详情

张驰-AppAgentX可进化GUI智能体框架.pdf

上传人: 拾亿 编号:751756 2025-07-29 49页 6.37MB

1、AppAgentX可进化GUI智能体框架张驰|西湖大学AGI实验室 助理教授张驰 博士连续两年入选美国斯坦福大学发布的全球前2顶尖科学家榜单2021年博士毕业于新加坡南洋理工大学计算机学院,博士毕业后加入腾讯公司担任研究科学家。2024年秋加入西湖大学担任博导,并创建 AGI 实验室。博士研究课题专注于高效低成本的机器学习和计算机视觉算法,目前的研究方向是大模型时代下的多模态模型与AIGC模型。曾在CVPR、ICCV、NeurIPS、TPAMI等顶级国际会议期刊上发表多篇学术论文。目 录CONTENTSI.背景:大语言模型与 AgentII.基于 GUI 的Agent:AppAgentIII.

2、可进化的GUI Agent:AppAgentX大语言模型作为智能体AgentPrompt:Imagine that you are a home robot,and is asked to go to the kitchen to fetch something from the fridge.The image below shows your current position.Please plan your next action.GPT-4V:My next action would be turn right and move forward towards the hallway,

3、as I can see that the kitchen is likely located in that direction.I would then continue to navigate through the hallway until I reach the kitchen and locate the fridge.大语言模型作为智能体AgentPrompt:Now you are at the kitchen,this is what you can see from there.Can you see the fridge from here?What is your n

4、ext action?GPT-4V:From this position,I can see the fridge on the right side of the kitchen.My next action would be to move forward and turn slightly to the right to approach the fridge大语言模型作为智能体AgentPrompt:Imagine that you are a robot operating a computer You are asked to find a detailed recipe of M

5、apo Tofu.Below is what you see on the computer screen,predict your next moveGPT-4V:Next move:I would move the mouse to the Google Chrome icon located on the left side of the screen,approximately 1/3 of the way down from the top.I would then click on the icon to open the web browser.A Simple Agent Pr

6、ototype决 策感 知执 行挑战Limitation of text-only input in current agent designControl alone is a big disciplineInsufficient knowledge in LLM&high learning costSignificance of InterfaceAgent 作用在用户界面上(UI)Advantages Actions have clear semantic meaning,providing a user-friendly interaction method Large languag

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了AppAgentX,一个可进化的GUI智能体框架,由西湖大学AGI实验室助理教授张驰博士创建。张驰博士的研究聚焦于机器学习和计算机视觉算法,以及大模型时代下的多模态模型与AIGC模型。 - **核心数据**:AppAgentX通过提取用户操作轨迹中的“捷径”,减少重复推理,降低执行时间和Token消耗。 - **关键点**: 1. AppAgentX利用动态匹配策略,增强抗干扰能力。 2. 模拟人类“肌肉记忆”,从历史操作轨迹中归纳,构建高级动作空间。 3. 通过进化机制,对复杂操作序列进行抽象,形成高级动作,减少重复执行成本。 4. 在执行长任务时,AppAgentX显著减少总时间消耗,拥有长短时记忆。 文章强调了AppAgentX在智能助手、数字员工、自动化测试等领域的重要意义,旨在革新人机交互方式。
"AppAgentX如何进化操作?" "多模态智能体有哪些优势?" "AGI实验室的创新动作空间?"
客服
商务合作
小程序
服务号
折叠