《邵坤_基于(M)LLM的智能手机代理:基准测试、离线微调和在线优化.pdf》由会员分享,可在线阅读,更多相关《邵坤_基于(M)LLM的智能手机代理:基准测试、离线微调和在线优化.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、Toward generalist App agent in open-ended world:benchmark,model,and optimization邵坤华为诺亚决策推理实验室Q1Q3202320242023.07 HarmonyOS 4引入全新的小艺,基于盘古大模型并结合丰富场景数据精调。集成文本生成、知识搜索、信息概括、意图理解,调用各类APP服务,打造系统级的智能体验。2023.10 小米将大模型技术提升至集团战略层面,成为全球首个在端侧运行大模型的厂商。初始应用场景为语音助手,旨在广泛影响小米终端用户2023.11 OriginOS 4集成了自研的蓝心大模型,端云结合,包含5
2、款自研大模型,全面覆盖核心场景。蓝心小V基于蓝心大模型开发,提供全局智能辅助功能,成为用户的专属私人助理2024.01 强调了AI化系统功能的重要性,从日常功能着手,实现大模型能力的积累和深度融合。该技术策略包括对话增强、个性专属服务和端云协同,致力于打造生态系统并全面赋能智慧交互体验。2024.01 新系统以平台级AI为核心,引入端侧大模型,通过深度语义理解和意图识别,转变为个人助理。具备多模态能力,基于多模态意图识别引擎和意图分析决策平台。2024.01 重点介绍的“即圈即搜”是在多种操作场景中可便捷触发的AI功能。新交互基于谷歌智能镜头实现,是谷歌SGE(生成式AI搜索)的进一步延展。2
3、024.06 Apple提出与系统紧密结合的系统级AI。iOS原生应用的端侧AI以使用自研Siri能力为主,在云侧需要开放域问题理解及内容创作时接入ChatGPT。Q2Q42023 Q3 终端Agent布局伊始2024 Q1 各厂陆续推出终端Agent2024 Q2 Apple Intelligence 发布终端成为Agent最重要的应用场景终端Agent 技术全景图超级对齐超长/多模态上下文多模态融合(文本/图像/音频/视频)结构化指令遵从All-in-One模型(语音/图片/视频/文本)模型压缩技术(量化)架构工具调用(泛化性强)端侧多模态模型参数高效微调多样化任务微调高效轻量数据管理轨迹
4、数据高效获取半自动化数据构建多源反馈微调对齐输入数据传感器数据感知(MLLM 融合感知)隐私端侧Agent决策/执行端侧Agent环境信息感知用户数据感知(Agent推荐)信息来源不同感知融合(软件,硬件来源)短期上下文长期上下文信息提取非关键信息剔除Agent自主感知感知激活主动探索意图端侧Agent记忆系统记忆获取记忆管理记忆增强(Agent推理)记忆进化(Agent反思)信息本地处理安全远程处理(远程加密技术)敏感数据掩码信息传输流程控制鲁棒对抗攻击防御后门攻击防御提示注入攻击防御可靠模型幻觉消除输出格式可执行化上下文关系保存指代一致性端侧Agent 安全和隐私端侧Agent评估基于ML
5、LM自动化评测框架多样化评测任务/场景生成端侧Agent评测指标设计操作理解能力(App功能,操作教程)页面理解能力(UI设计,元素,空间,语义)预训练交互理解能力(页面问答)行为克隆(任务规划,页面理解,逻辑推理,对话交互,动作生成,行为遵从)低响应时延频率匹配(语音/机械/工具/代码)序列生成(Transformer,RNN)机械控制(Diffusion policy)图像生成(Diffusion model)多Agent协同协同控制记忆优化复杂多轮指令处理端侧模型规划指令合成规划端侧Agent部署分布式计算边缘设备云端部署大小模型协同MCTS搜索通用回报To achieve genera
6、list App-Agent we need to solve the following scientific questionsTo achieve Generalist App Agents,we propose a new generation of methods that answer the following questions:Q1.Comprehensive Benchmarking.Can App Agents be fairly and objectively evaluated?Requiring a varied open-ended task scope,diff