1、1面向具身智能的大小脑模型协同算法研究及实践盛律|软件学院2025-08-23具身智能的基本概念2具身智能基于物理载体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性具身智能的基本概念3具身智能基于物理载体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性被动抽象接受传统智能主动具体体验具身智能可以打开,可以装东西我主动体验什么是盒子只可远观,被动接受别人告诉我这就是盒子重要意义具身智能因其能自主产生智能行为和适应性,是通用人工智能的可能起点 具身智能的关键任务4导
2、航问答操作具身智能的核心目标5具身智能的核心要素6现状相比具身载体的日趋成熟,具身模型的算法研究方兴未艾、挑战众多物理载体智能算法具身模型(Model)具身载体(Agent)具身模型应该考虑哪些能力?n技能泛化、真实交互、本体扩展7Skill(技能泛化)Embodiment(本体扩展)Reality(真实交互)Adapted from Jim Fans talk具身模型的几种类型8端到端大小脑协同具身模型的最新进展:代表性新工作9端到端VLA大小脑 hi robot(2024.10)(2025.02)混合(2025.04)大脑-小脑端到端VLA端测SDK(2025.03)具身大脑端到端VLA具
3、身大模型离实用还有差距10单任务单本体单场景Hand-Eye Coordination Robotic Arm大模型大数据通用智能系统多本体多场景端到端多模态大模型机器人2023及之前20242025及之后多任务单本体单场景感知和理解决策和规划执行和协作评估和反馈Scaling Law在大语言模型和多模态大模型上都得到了验证基本能力操作导航感知一个模型只适用于一种本体模型能力弱,未达到具身智能的“ChatGPT时刻”大脑、小脑、本体适配难度高不通用不好用不易用需要“聪明”的大脑大模型和跨本体的大小脑协作框架,实现跨本体、跨场景、可泛化的具身智能大小脑模型协同的技术路线仍有机会11模块化:大小脑
4、协同框架赋予具身智能体模块化优势,具备可扩展架构、高效开发与强适应性三大特性可泛化:基于VLM开发的大脑具备丰富的多模态认知能力,且不受小脑模型的影响可解释:决策过程更加透明,提升人机协同效率q 端到端模型虽决策高效,但泛化性和扩展性受限,受制于环境交互与硬件适配,难以适应多样场景。而模块化的大小脑协同框架凭借强泛化、可解释优势,正成为学界与业界的研究热点大小脑模型协同框架 是当前实现具身智能体更易落地的技术路线传统多模态大模型能够作为“大脑”?n传统VLMs在具身智能场景(长程闭环操作、时空智能等)中面临严峻挑战12以把锅放到抽屉里为例,该任务涉及多步骤的长时间交互,包括移动、抓取、放置等操
5、作,并需要与锅、抽屉等物体进行持续交互GPT-4o在具身任务中表现欠佳回顾:具身模型应该考虑哪些能力?n技能泛化、真实交互、本体扩展13Skill(技能泛化)Embodiment(本体扩展)Reality(真实交互)Adapted from Jim Fans talk技能泛化:多智能体实现长时序开放具身任务解决14DayStoneWoodWaterGrassForestPlainsTask:Gather wood from the forest,craft a stone sword on the plains,and then use it to kill a pigduring the d
6、aytime near water and grassLong-horizon open-world embodied tasksPig技能泛化:多智能体实现长时序开放具身任务解决15DayStoneWoodWaterGrassForestPlainsO18O28O1O6Task:Gather wood from the forest,craft a stone sword on the plains,and then use it to kill a pigduring the daytime near water and grassPigforestdaygrassContextlogpi