《徐海洋-多模态多端手机智能体Mobile-Agent.pdf》由会员分享,可在线阅读,更多相关《徐海洋-多模态多端手机智能体Mobile-Agent.pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、多模态、多端手机智能体多模态、多端手机智能体Mobile-AgentMobile-Agent徐海洋|阿里巴巴通义实验室徐海洋徐海洋阿里巴巴通义实验室 高级算法专家 阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG、Mobile-Agent系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent、PC-Agent等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024 Best Demo,获得多个多模态榜单第一和Best
2、 Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文50多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,Mobile-Agent,AliceMind,DELTA。目目 录录CONTENTSCONTENTSI.I.大模型智能体背景大模型智能体背景II.II.多模态手机智能体多模态手机智能体Mobile-AgentMobile-AgentIII.III.多模态多模态PCPC智能体智能体PC-AgentPC-AgentIV.IV.Mobile-AgentMobile-Agent开源应用开源应用大模型
3、智能体背景大模型智能体背景PART 01PART 01大模型智能体是人工智能应用的未来大模型智能体是人工智能应用的未来“如果一篇论文提出了某种不同的训练方法,我们内部的Slack上会嗤之以鼻,认为都是我们玩剩下的。但是当新的AI Agents论文出来的时候,我们会认真兴奋的讨论”Andrej Andrej KarpathyKarpathy“AI Agent不仅会改变每个人与计算机交互方式。它还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算变革”比尔盖茨比尔盖茨大模型智能体的优势大模型智能体的优势OpenAIOpenAI FiveFiveDeepMindDeepMind Alpha
4、StarAlphaStarLLMLLM AgentAgent withwith ChatGPTChatGPT传统基于传统基于RLRL的智能体的局限性的智能体的局限性大模型智能体的优势大模型智能体的优势数据采样专有环境和低效面向特定任务稀疏奖励和长时段问题丰富的世界知识推理/规划能力工具使用(检索、code等)In-context Learning大模型智能体系统大模型智能体系统在人工智能领域,AI智能体指可以观察周遭 环境环境 并作出 行动行动 以达致 目标目标 的 自主自主 实体Agent System Overview Agent System Overview from Lilian W
5、engfrom Lilian Wengs blogs blogWang et al.A Survey on Large Language Wang et al.A Survey on Large Language Model based Autonomous AgentsModel based Autonomous Agents大模型智能体发展迅速大模型智能体发展迅速大模型广泛使用后,各类大模型智能体模型、框架、应用呈现井喷趋势多模态大模型智能体多模态大模型智能体现实世界是需要 多模态环境交互多模态环境交互 的,多模态智能体可能衍生出更多Super、Fancy应用Claude computer
6、 use多模态大模型智能体多模态大模型智能体现实世界是需要 多模态环境交互多模态环境交互 的,多模态智能体可能衍生出更多Super、Fancy应用Claude 3.7 sonnet(computer use)Claude 3.7 sonnet(computer use)OperatorOperator参照人类思考系统的快速反应与慢反思结合的工作模式,将LLM快速响应和思维链深度思考基于Computer-Using Agent 模型,结合GPT4o的视觉理解能力和强化学习习得的推理能力,自动执行鼠标和键盘的组合操作,无需API,具备推理思维链和自动纠错能力https:/ computer use