《高鹏至-小米在AI Agent上的思考和探索.pdf》由会员分享,可在线阅读,更多相关《高鹏至-小米在AI Agent上的思考和探索.pdf(51页珍藏版)》请在三个皮匠报告上搜索。
1、高鹏至 小米大模型团队高级算法工程师负责多语言大模型及 AI Agent 的研发工作。博士毕业于伦斯勒理工学院,研究方向为自然语言处理和信号处理,曾在 ACL、EMNLP、NAACL、ICASSP、IEEE Transactions on Signal Processing 等国际会议和期刊发表多篇论文。演讲主题:小米在AI Agent上的思考和探索 小米在AI Agent上的思考和探索高鹏至 2024年11月15日小米大模型团队小米科技战略的实践者(软件 硬件)深耕底层技术,长期持续投入,软硬深度融合,AI全面赋能AI小 米 科 技 战 略深耕底层技术,长期持续投入12个技术领域,99个细分
2、赛道,未来5年技术投入1000亿元人民币人工智能大数据机器人云计算操作系统智能制造智能汽车小米人工智能发展历程大语言模型(LLM)的快速发展https:/rdi.berkeley.edu/llm-agents/f24LLM 智能体(Agent)为什么引入LLM Agent?解决真实世界的问题通常是个试错的过程利用外部工具和知识可以扩展大语言模型的能力Agent工作流更适合解决复杂问题任务拆解子任务分配多 agent 合作Agent的广泛应用代码生成工作流自动化个人助理机器人Agent+手机/智能家居是天作之合手机依然是未来十年的个人计算中心智能家居场景拥有丰富的感知设备和复杂的场景 Agent
3、 能够理解用户需求 Agent 能够处理复杂的任务 Agent 能够提供个性化服务Agent在手机上的三种未来形态操操作作系系统统APPOS Agent接口服务和内容APPAPP Agent工具学习GUI Agent中心化 Multi-Agent已有的工作AgentsAPIsToolAPPsOS/SuperAgentToolPlanner,EMNLP 2024ToolReranker,COLING 2024MobileSteward,submitted to KDD 2025Mobile-Bench,ACL 2024MobileVLM,EMNLP 2024背景介绍:与外部工具交互的方案原型Re
4、Act:Synergizing Reasoning and Acting in Language Models,ICLR 2023.方案可以简单的总结为 Thought-Action-Observation 的循环操作:1.Thought2.Action3.Observation若模型认为任务已经完成,模型可以跳出循环并生成答案。ReAct方案示例https:/rdi.berkeley.edu/llm-agents/f24ReAct方案示例ReAct方案示例背景介绍:数据原型(ToolBench)ToolLLM:Facilitating Large Language Models to Mas
5、ter 16000+Real-world APIs,ICLR 2024.16K+个 API 和 12K+个用 ChatGPT 生成的数据示例背景介绍:数据原型(ToolBench)ToolLLM:Facilitating Large Language Models to Master 16000+Real-world APIs,ICLR 2024.背景介绍:数据原型(ToolBench)ToolLLM:Facilitating Large Language Models to Master 16000+Real-world APIs,ICLR 2024.背景介绍:常见工具增强 LLM 结构工具
6、增强大模型通常由外部工具池、检索器和主模型组成。在每一轮中,大模型可以进行以下几项操作:1.思考2.与外部工具交互3.提出解决方案4.重新开始(可选)工作动机在真实场景中,用户通常不会使用带有API名称的指令,而是用更自然的语言来描述他们的意图。之前的工作关注大模型能否最终生成一个合理的答案,而忽略了它们的指令遵循能力。MGToolBenchMGToolBenchMGToolBenchToolPlannerToolPlannerToolPlannerToolPlanner奖励函数任务完成(Pass):解决方案是否完