当前位置:首页 > 报告详情

徐海洋-多模态多端手机智能体Mobile-Agent.pdf

上传人: 拾亿 编号:751730 2025-07-29 47页 19.27MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里巴巴通义实验室高级算法专家徐海洋在多模态、多端手机智能体Mobile-Agent领域的成果。关键点如下: 1. 开发了基础多模态模型mPLUG/mPLUG-2、多模态对话大模型mPLUG-Owl/Owl2、多模态文档大模型mPLUG-DocOwl等,其中mPLUG在VQA榜单首超人类成绩。 2. 提出多模态手机智能体Mobile-Agent,荣获CCL2024最佳演示,具备跨应用操作、纯视觉方案、无需训练等优势。 3. 多模态PC智能体PC-Agent针对更复杂的交互环境和操作序列进行优化,引入主动感知模块和复杂指令分解。 4. Mobile-Agent和PC-Agent开源应用,分别在移动端和PC端实现了高效的多模态智能操作。 文章中核心数据:发表论文50多篇,担任多个顶级会议AC/PC/Reviewer,Mobile-Agent荣获CCL2024最佳演示。
"手机如何智能操作?" "多模态智能体哪家强?" "PC-Agent有哪些黑科技?"
客服
商务合作
小程序
服务号
折叠