李东江-多模态具身智能操作技能学习、交互探索与应用.pdf-在线下载-三个皮匠报告

1、李东江京东探索研究院高级算法科学家现任京东探索研究院高级算法科学家，围绕具身智能技术、室内服务机器人应用领域开展研究工作，在ICRA，IROS有数篇论文发表。北京交通大学通信与信息系统博士，获得北京亦麒麟优秀人才，京东-探索研究院技术之星奖，构建了“大模型+机器人”具身系统，为京东集团相关重点项目提供了技术路线支撑，并负责大模型在该项目上的应用研发。目前，专注于打造基于多模态大模型的双臂移动机器人平台，聚焦上层认知能力和底层操作技能的提升。演讲主题：多模态具身智能操作技能学习、交互探索与应用迎接具身智能浪潮，具身操作探索实践与分享李东江京东集团-博士管培生京东探索研究院-高级算法科学家具身智

2、能及技术趋势三层级具身智能架构工作实践具身基础操作预训练大模型人工智能正加速向AGI迈进，具身智能是不可缺少的一环基础模型从语言模型走向多模态与具身智能从数字世界走向物理世界：具身智能机器人Information processing,disembodied intelligence to embodied intelligenceRobotEmbodied IntelligenceBodyMobility&Manipulation(temporal),Interaction,Coorperation w.human-robot,Active perceptionIntelligenceMul

3、timodal recognition,Open-end dynamic model(spatial)Reinforcement Learning and Sim-to-Real transfer inference/planning(logical),Intrinsic value/motivationICTLaptop(info)Palm deviceWearable deviceHumanConnecting peopleInformation RetrievalAmusement Using tools in manipulation,Mobility,Personalized phy

4、sical assistance,Project-based education,Security,Tele-operation,Social welfare&care,Rescue in Disaster,Space Exploration 架构一：三层级具身智能大模型上层任务规划层、技能层及底层硬件兼容层，大小模型耦合工作架构二：端到端具身智能预训练大模型具身智能终局是端到端大模型，end-to-end robotic control任务规划层：自研多模态任务规划具身模型面面临临挑挑战战技技术术突突破破行行业业领领先先性性传统方法常常受限于预设规则，缺乏适应性；Prompt+大模型，模

5、型幻觉导致执行任务失败。收集轨迹数据模型微调，多模态具身智能体对齐语言智能体逻辑能力；实现功能：输入“想喝冰可乐”，模型输出：“1.前往冰箱；2.打开冰箱；3.取可乐；4.关冰箱门；5.返回。”自自研研模模型型成成功功率率、交交互互步步数数指指标标，性性能能明明显显优优于于所所有有V VL LM M如如L LL La aV VA A ，M Mi in ni iG GP PT T-4 4等等，相相关关成成果果C CV VP PR R+提提交交专专利利申申请请。为为了了提提高高E EM MM MA A在在动动态态视视觉觉世世界界中中的的环环境境理理解解能能力力，E EM MM MA A具具身身多多

6、模模态态智智能能体体不不仅仅仅仅在在离离线线的的多多模模态态数数据据集集上上进进行行了了静静态态图图文文-视视觉觉对对齐齐，还还进进行行了了动动态态的的视视觉觉世世界界微微调调学学习习采采用用知知识识蒸蒸馏馏/模模仿仿学学习习的的方方法法，通通过过G GP PT T 3 3.5 5和和E EM MM MA A两两个个智智能能体体之之间间的的跨跨模模态态模模仿仿学学习习来来对对E EM MM MA A进进行行微微调调 Yang,Yijun,et al.Embodied multi-modal agent trained by an llm from a parallel textworld.P