1、出品机构:甲子光年智库智库院长:宋涛报告撰写:翟惠宇发布时间:2025年1月目 录Part 01具身智能的发展背景P02Part 02具身智能的发展现状P11Part 03应用场景和代表厂商P20Part 04发展挑战与技术趋势P36具身智能指具备物理载体的智能体,强调智能体与物理环境的交互。Source:公开资料,甲子光年智库整理。p“具身智能(Embodied AI)”指有物理载体的智能体,在与物理世界的交互过程中,通过感知、控制和自主学习来积累知识和技能,形成智能并影响物理世界的能力。p 其关键在于“具身认知”,即该智能是通过身体和环境的交互过程中产生的,不能脱离实体,这是具身智能与离身
2、智能的关键区别。p 具身智能主要以各种智能机器人的形态出现,融合了机器人领域与计算机领域下的多个学科,是所有学科发展到相当成熟度之后才涌现出的能力。具身智能物理载体影响思维和判断等心智过程,认知不能脱离身体单独存在通过强化学习、模仿学习等方法,产生对于客观世界的理解和改造能力L0L0L1L1L2L2L3L3L4L4L5L5人类智能拖拽录制回放运动控制控制算法行为设计任务设计观察者监督者非结构化环境自主决策行动执行复杂任务任务推理知识图谱语义地图感控一体环境感知定位导航算法驱动执行规划关节驱动结构驱动结构层关节层运动层感知层认知层全自主自动自主以人类为主导以机器为主导多因素驱动我国成为具身智能技
3、术发展与应用的沃土。Source:公开资料,甲子光年智库整理。p 具身智能机器人是我国发展新质生产力的未来产业新赛道,集成了AI、先进制造、新材料等先进技术,将对社会产业变革和全球竞争格局产生颠覆性影响。p 无处不在的应用潜力预示着庞大的市场需求、国家与地方长期的政策规划支持、核心零部件供应链完善形成集群效应、以及健康良好的人才和创业生态,多方面因素推动我国成为具身智能技术发展的沃土。p 当前,国内的高校院所、科技大厂、初创企业均在布局以AI大模型和人形机器人为代表的前沿领域,我国在具身智能领域已经走在国际前列。国际竞争能力进口替代能力丰富的应用场景行业解决方案图:我国在具身智能技术与应用已经
4、走在国际前列市场需求极为庞大全球范围内工业机器人与服务机器人市场规模十分巨大。当前,人口老龄化问题日益突出,老年人口数量不断攀升,同时人口出现了负增长态势。年轻一代不再愿意在恶劣的环境中工作,枯燥、重复、低价值的劳动可交由机器人作业。高盛预测,2035年全球人形机器人的总体可用市场(TAM)将达到380亿美元,预计出货量为140万台。人才和创业生态良好超过400所高校高效开设机器人工程专业。机器人企业注册数量迅猛增长。过去十年投资总额超千亿元。多地设立机器人产业基金,如北京机器人产业发展投资基金(规模达100亿元)、上海人形机器人产业基金(20亿元)、吴中区机器人产业基金等。产业集群效应显著制
5、造业集群产业链完善,可大幅缩短研发周期,从1.5年降至0.7年。靠近供应链与客户,能节省物流及定制时间成本,提升购买舒适度。地方在土地、信贷、财政等方面大力支持。得益于本地供应链规模量产,关键零部件成本快速降低。在北京、上海、广东等地设立人形机器人创新中心。长期国地政策支持国家和地方政策稳定推出并施行。从顶层优化机器人产业结构,促进产业链协同。聚焦底层技术、应用及创新驱动。国家设立中期(2025 年完成关键技术攻关)和远期(2027 年创新能力显著提升,建成安全可靠本土产业链供应链体系)目标。国际竞争能力:在技术和产品上可达到国际一流水平,未来能与国际一流厂商进行直接竞争进口替代能力:基本做到
6、关键产品和技术的自主可控,在封锁时可以提供可用的技术和产品丰富的应用场景:具身智能产品和技术在国内有广泛且长期的应用场景,未来将生成海量需求市场行业解决方案:该行业有完整的产业链条,可为实体经济中各下游产业的需求与发展提供对应的具身智能机器人解决方案政策持续加码,具身智能与人形机器人正走进科技发展的舞台中央。Source:各政府网站,甲子光年智库。p 各国均将以人形机器人为代表的具身智能上升到国家战略,通过跟进完善制度建设、提供资金补贴等方式推动技术发展。p 国内相关政策主要围绕加快具身智能机器人重点场景应用、加强行业标准规范建设、设立专项财政与基金支持、加速人才引进与技术培育等方面,通过政策
7、推动,在短期实现核心零部件的技术突破,在长期建设丰富产业应用和生态。日期部门名称主要内容2023.1.8工信部等17部门“机器人+”应用行动实施方案基金支持、试验中心、加速研发与推广2023.5.31深圳市委办公厅深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)人才供给、加速研发、提升产业集聚水平2023.6.15上海市人民政府办公厅上海市推动制造业高质量发展三年行动计划(2023-2025年)核心部件攻关、加速应用推广、人才梯队2023.6.28北京市人民政府办公厅北京市机器人产业创新发展行动方案(2023-2025年)培育新产品、加紧布局、校企合作2023.8.3
8、工信部等4部门新产业标准化领航工程实施方案(2023-2035年)研制人形机器人相关标准,包括术语、核心零部件、智能感知决策、运动控制、安全和应用等方面2023.10.26工业和信息化部人形机器人创新发展指导意见技术突破、重点产品、应用场景、人才引育2024.1.18工信部等七部门关于推动未来产业创新发展的实施意见加速创新和产业化、基金支持、应用场景、人才引进2024.7.6上海上海市人形机器人治理导则促进AI产业健康发展、确保人形机器人合乎人类道德和伦理价值图:具身智能/人形机器人相关政策不断出台,多维度支持新技术落地具身智能具备新质生产力的关键内涵,是推动新质生产力建设的重要引擎。Sour
9、ce:央视,甲子光年智库。p 新质生产力强调在科技创新的基础上大幅提升生产效率和创新能力,而具身智能技术作为人工智能和机器人技术的融合发展前沿,天然具备形成新质生产力的关键内涵,是推动新质生产力发展的重要引擎。p 具身智能技术契合着解决未来社会矛盾的刚性需求,有望解决如工场劳动力短缺、社会老龄化等问题,把人类劳工不愿从事的枯燥、高危劳动中解放出来,并进一步推动全社会生产关系的改变与重塑。关注具身智能技术的发展对于我国实体经济高质量增长和国际产业竞争格局有着重大意义。推动产业链供应链优化升级积极培育新型产业和未来产业深入推进数字经济创新发展新质生产力全要素生产率大幅提升创新质优先进生产力传统经济
10、增长方式传统生产力发展路径摆脱更高素质的劳动者更高技术含量的劳动资料更广范围的劳动对象核心标志特点质优先进生产力技术革命性突破生产要素创新性配置产业深度转型升级高科技高效能高质量催生特征促进具身智能是信息科学、智能科学、机械科学和电子科学等多学科交叉的领域具身智能将AI Agent和机器人两者结合,极大推动了智能大脑、机器人及智能终端的进化与泛化具身智能具备通过物理载体直接影响世界的能力,有望改变和重塑生产关系,极大提高生产效率图:具身智能技术是推动新质生产力发展的重要引擎智能化技术将进一步放大机器人对工业领域人类劳动力的替代作用。Source:IFR,World Robotics 2024,
11、甲子光年智库。p 全球工业机器人整体仍然保持增长态势,其中中国工业机器人安装量一枝独秀,2023年安装量高达27.6万台,占全球安装总量的51%。p 与此同时,来自国产品牌的工业机器人供应商也得到了快速发展,本土供应商已经近乎占领一半的国内市场。p 人工智能与机器学习技术的进步,将进一步放大机器人对人类劳动力的替代作用,在灵活、柔性、非标的层面展现更大的应用价值。42338739052655354115514517627529027636.6%37.5%45.1%52.3%52.4%51.0%201820192020202120222023全球工业机器人安装量中国工业机器人安装量中国工业机器人
12、安装量占比图:全球vs中国工业机器人安装量(单位:千台)海外供应商53%本土供应商47%中国工业机器人市场占比中国是工业机器人领域的全球最大市场本土制造商在国内市场份额快速提升供给侧改革稳步推进,高端制造业快速发展,国内制造业仍然有较大发展潜力,国内工业机器人市场规模有望持续提升随着具身智能技术的加持,机器人的自主决策能力将快速提升,能够适应更复杂、更多变的任务人工智能发展线:从理性主义到深度学习Source:公开资料,甲子光年智库。p 在机器人领域的应用上,生成式AI技术正在兑现提升机器人关键能力的潜力,在环境感知、自主决策、学习与适应等多个方面均有表现。p 基于网络数据训练的大模型似乎正在
13、触及AI认知的边界,Scaling Law下的预训练大模型性能似乎快要达到极限,参数量和数据量的扩充已经难以给模型带来质的突破。AI想要进一步发展,必须与物理世界建立更加紧密的联系,具身智能将是AI继续向AGI进步的关键途径。符号主义与专家系统(1950s-1980s)Newell&Simon:通用问题求解器(GPS)Eliza聊天机器人专家系统开始兴起,人工智能在特定领域成功模拟人类专家的知识和推理能力连接主义复兴与机器学习(1980s-2010s)Rumelhart&Hinton:反向传播算法IBM“深蓝”击败国际象棋世界冠军机器学习方法开始流行,关注从数据中学习模式,在图像识别、文本分类
14、等领域得到重要进展深度学习突破与AGI展望(2010s-至今)AlexNet和ImageNet在CV领域取得成功BERT等预训练语言模型出现,自然语言处理能力大幅提升GPT系列等大规模预训练模型出现与进化,展现出强大的理解、推理和创造能力接下来如何继续学习以提升智能水平?怎么与真实世界交互?萌芽:图灵测试图:人工智能技术发展线围绕“离身智能”具身智能机器人发展线:从自动化工具到直接影响物理世界的智能体Source:公开资料,甲子光年智库。p 从历史的角度来看,工业机器人的硬件进化不断发展,从自动化设备到移动机器人,从协作机器人到人形机器人,每一步都代表着技术的进步和创新。当下,已经进入了AI大
15、模型与机器人在底层技术创新和应用融合的交叉时代。p 技术的每一次进步都会带来机器人应用场景的突破,且一般会在精准、重复的工业场景作业流程中率先得到应用。未来,如何提升智能机器人在开放场景的可用性,是具身智能正在解决的问题。自动化设备与工业机器人(1950s-1980s)Unimate:第一个可编程机器人,标志着现代机器人开端,并在汽车工厂投入使用六轴关节机器人开始普及,运动能力和灵活性不断增强传感技术与移动机器人(1980s-2000s)视觉、力觉传感技术开始应用于机器人,机器人开始能够感知外部环境扫地机器人、仓储物流AMR开始应用,能在一定程度上自主规划路径和执行任务智能机器人与协作机器人(
16、2010s-至今)协作机械臂(cobot)兴起应用场景从工业领域不断拓宽,出现服务机器人、特种机器人等机器人类型人形机器人起步图:机器人技术发展线接下来如何提升机器人在开放场景的可用性?以及更多的任务执行?机器人如何更好地理解和适应动态、复杂的世界?具身智能从自动化到智能化,从单一任务到通用泛化具身智能:两条发展线的汇聚点,“AI的下一个浪潮是物理AI”Source:甲子光年智库整理。p 人工智能和机器人技术的发展并非孤立进行,而是相互促进、共同演进的。人工智能为机器人赋予了“大脑”,使其具备感知、思考和决策能力;而机器人则为人工智能提供了“身体”,使其能够与真实世界进行交互,获取经验和知识。
17、p 具身智能的兴起是人工智能和机器人技术各自发展到一定阶段的必然结果,是两者深度融合的体现。人工智能的持续进步需要与物理世界的交互能力,而机器人的未来发展也离不开更高级别的智能化水平。人工智能发展线机器人发展线符号主义&专家系统机器学习&深度学习瓶颈AI需要“身体”去感知自动化&工业机器人移动与协作机械臂瓶颈机器人需要更强“大脑”19601980200020102020图:具身智能是AI与机器人两条线的交汇感知与交互融合学习与适应结合决策与执行统一软硬件协同进化Time机器人的“大脑”AI的“身体”认知智能的初步探索 试图模拟人类思考,但缺乏与环境互动 数据驱动的智能提升 需要真实世界数据突破
18、瓶颈 如何在复杂动态环境中有效运行?执行预设任务的工具 高效重复操作 缺乏自主性和灵活性 尝试感知环境 理解和决策能力受限 难以适应非结构化环境、可执行任务单一 如何在复杂、未知环境中自主行动?目 录Part 01具身智能的发展背景P02Part 02具身智能的发展现状P11Part 03应用场景和代表厂商P20Part 04发展挑战与技术趋势P36大模型与GenAI飞速发展,开启具身智能技术萌芽。Source:Gartner,公开资料,甲子光年智库整理。p 随着人工智能算法的发展,尤其是多模态大模型技术的突破性进展,将显著加速机器人产业的发展,提升机器人的智能水平,使得机器人能够自主进行判断
19、和识别,执行复杂的多阶段语义推理任务。不仅提高了机器人的泛化能力,也快速推动了人形机器人通往量产的进程。p 根据Gartner技术成熟度曲线,当前的具身智能仍处于技术萌芽期,虽然受大模型技术的推动成为科技产业的热点,但是初创公司技术和商业化路径还没有找到有效方案,在成本、技术等层面仍然需要攻坚克难。发展阶段智能化目前所处阶段AI大模型是突破契机产线自动化机器智能人工智能替代重复劳动(从低精度到高精度)根据环境变化调整自身行为任务导向,自主处理复杂问题自动化生产设备机械臂、轮式机器人四足机器人、双足人形机器人标准化工业生产线单一任务应用场景智能制造协作、公共服务多任务处理通用机器人全场景更多功能
20、和灵活性产品形态主要功能技术特点事先程序设定控制传感器感知环境信息深度学习技术具备类人特征,有自主思维能力协作化灵活化人性化机器人智能化图1:大模型与Agent技术是机器人产业突破临界点的关键图2:具身智能尚处于技术发展的萌芽期智能机器人表现的提升依赖于软硬件多种技术的快速进步与降本。Source:网络公开资料,图片由AI生成,甲子光年智库。p 以人形机器人为代表的具身智能机器人是链接虚拟数字世界和现实物理世界的最佳载体,是虚实融合的理想产物,其性能表现也高度依赖于软件与硬件的全方位进化。p 从基础材料科学到人机交互技术,从多模态感知大模型到高精度机器人运动控制算法,软硬件多个层面的技术积累与
21、快速进步,让具身智能在2023年后迅速让世界看到其应用潜力与应用可行性。多模态感知&传感器多模态感知&传感器多模态感知&传感器感知结果&任务理解感知信息从低精度到高精度,从单模态到多模态具身智能的实现需要做到视觉、听觉、温度、力度等多种模态的感知融合,方能全面地感知动态环境大语言模型等单一模态模型,或图文大模型等双模态模型,并不能实际解决具身智能机器人需要实现的作业任务多模态的感知数据需要多模态大模型进行深度融合,方能为后续的决策、规划和控制模块提供实时的精准时空融合感知大模型与行业know-how、业务系统也需要实现深度融合,以更好地让机器人理解作业任务多模态感知&传感器自主决策与规划基于全
22、面的环境感知与精准任务理解做出决策最优解类似multi-agent技术发展趋势,智能机器人也需要实现单体智能到群体智能的进化多模态感知&传感器机器肢体&运动控制一方面基于材料科学的进化,推动核心零部件的性能与成本表现另一方面利用模仿学习、强化学习等方法,通过大数据集、合成数据等手段加速机器人控制算法的迭代仿真技术的进步也为运动控制算法与机器人应用开发提供了一种有效手段具身智能产业链:软硬件深度融合,复杂且充满活力的生态系统Source:甲子光年智库整理。硬件硬件软件软件软件软硬件集成分层模型or一体化端到端,机器人面临与自动驾驶一样的选择题。Source:云启资本,Google DeepMin
23、d,甲子光年智库整理。p 从“大脑-小脑-肢体”的架构来看,分层模型通过不同层次模型协作,利用底层硬件层和中间响应快的小模型弥补上层大语言模型的不足,推动机器人在实际场景的应用,并越来越多地采用基于学习的控制方法。p VLA等端到端模型能够直接实现从人类指令到机械臂执行,即输入图像及文本指令,输出夹爪末端动作。p 分层式路线一度是主流选择,因为端到端路线受数据制约难以达到性能要求;机器人数据正在逐步积累,端到端路线在未来可能成为主流。路线1:分层模型路线,不同层级由多个神经网络分别训练优化再联合高层级:感知&规划低层级:动作控制策略代码规划自然语言处理基于规则的控制模型预测控制基于学习的控制预
24、训练模型 通过感知系统获取环境状态信息 基于预先设定的策略将其转化为可执行的代码指令 利用自然语言进行理解和推理,生成执行步骤,ViLA:使用GPT-4V进行机器人上层规划 传统控制方法,根据预定义规划指导机器人行为,即预编程 在每个控制步骤中进行滚动优化,再在新的步骤中进行再次优化 通过大规模数据的强化学习&模仿学习 特定任务或场景下的机器人控制提供基础和初始化路线2:端到端模型路线,从目标输入到指令输出以RT-2为例的VLA模型,大规模数据下能够实现泛化能力Input:图像及文本指令Output:输出是夹爪末端动作直接端到端地实现从人类指令到机械臂执行端到端模型的难点在于数据采集难:类似于
25、过往自动驾驶技术的发展,在没有足够的车辆上路之前,极难实现数据的飞轮效应现行资源下的计算效率低下通往One-Model端到端大模型是个循序渐进的过程。Source:智元机器人,甲子光年智库整理。p 数据规模、模型泛化性、响应速率等问题是当前端到端具身大模型需要逐步攻克的弊端,需要在数据采集和模型训练上寻求新的突破方法。p 根据智元机器人定义的路线图,当前具身智能大脑已经具备认知、推理、规划的能力,且而小脑层面机器人技能任务的训练也是通过深度学习以驱动的。随着场景、数据的增多,多个特定小模型会逐渐泛化为通用操作大模型,并最终实现与上层模型的融合。G1基础自动化G2通用原子技能G3端到端操作技能G
26、4端到端操作大模型G5AGI人工编排任务编排认知推理规划大模型认知推理规划大模型感知决策执行端到端大模型通用操作大模型感知执行抓取位姿估计机械臂控制夹爪控制抓放递基础模型数据驱动海量数据长程数据APIAPIPrompt具身智能阶段当前行业前沿所处的阶段图:具身智能的发展阶段,从模块化走向One Model端到端采集方式不断进化,仿真数据有望驱动机器人实现智能跃迁。Source:甲子光年智库整理。p 当前的具身智能是通过深度学习技术(模仿学习、强化学习等)从大量数据中学习并实现的,巨量的、优质的、多样的数据,是具身智能机器人能够实现各种各样自主操作的基础。p 数据采集方式呈现多元化,人工示教(遥
27、操、动捕)、机器人自主探索、仿真合成数据等方式各有优劣,为具身智能训练数据集添砖加瓦。p 自动驾驶的数据采集方式具备借鉴意义:在规模化部署以后,机器人在影子模式下自主探索,通过与环境互动收集多元数据,在云端形成数据闭环,再反哺模型的调整与训练,这也是具身感知、学习的具体表现。方法优势劣势人工示教与轨迹记录操作人员直接通过遥控器、手柄、力反馈设备或其他界面控制机器人执行任务同时记录机器人的关节角度、末端执行器位姿、传感器数据直观易懂、快速采集捕捉人类经验成本高、耗时长场景难以全覆盖机器人自主探索与交互允许机器人在环境中自由探索,通过与环境互动来收集数据。真具身感知:观察其对环境和自身状态的影响。
28、无需人工过多干预能够覆盖更多场景经过不断试错学习数据质量难题需要优秀的奖励函数设计需要很多实体在现实层面部署仿真环境生成数据在虚拟环境中(如世界模型)模拟机器人的工作状态,生成大量的感知数据和动作数据可以控制环境的各种参数,利用大模型的泛化性,生成各种各样的数据低成本、高效率可控性强生成的数据自带标注Sim-to-real gap仿真环境本身难以构建物理现象难以模拟开源数据集&预训练模型利用已有的、公开可用的数据集进行训练或使用在其他任务上预训练好的模型作为基础,进行迁移学习或微调降低采集成本解决自身采集的数据稀疏问题缺乏标准,数据不一定适配标注质量参差不齐预训练模型迁移学习表现不佳起步阶段(
29、过去几年)发展阶段(当前主攻方向)规模化阶段(未来规模化部署后)训练具身智能的常见数据采集方法及优劣势2024年迎来具身智能投资热潮,本体与具身模型受到资本青睐。Source:IT桔子(统计口径或另有出入,仅选取公开融资信息),公开资料,甲子光年智库整理。p 如果说OpenAI的ChatGPT引爆了2023年对大语言模型的投资热潮,那么Tesla入局人形机器人和黄仁勋的那句“AI的下一个浪潮是具身智能”,则彻底带火了具身智能与人形机器人领域的投资热潮,成为2024年科技产业投资的最大热点。p 当前具身智能机器人可用性不足的原因还是“智能化”水平不足,算法环节无法达到要求。从投资角度看,头部人形
30、机器人的本体研发集成厂商已经经历多轮融资,估值较高,行业整体投资热点正从人形机器人本体向具身智能模型和其他上游零部件迁移。图1:国内人形机器人投资事件数量与金额变化(2020-2024)20202021202220232024投资事件数量(起)投资金额(亿元)图2:从本体制造到具身大模型,投资热点有所迁移公司名称融资时间融资金额投后估值1X Technologies2024 年 1 月1 亿美元未提及Figure AI2024 年 2 月6.75 亿美元26 亿美元Skild AI2024 年 7 月3 亿美元15 亿美元Physical Intelligence2024 年 11 月4 亿美
31、元24 亿美元国外市场率先转向公司名称融资时间融资金额千寻智能2024 年 8 月近 2 亿元穹彻智能2024 年 9 月累计数亿元星云智慧2024 年 10 月2000 万元星海图2024 年 11 月超 2 亿元自变量机器人2024 年 11 月亿元级国内资本于2024年下半年跟上*仅选取部分初创公司,大厂未包含在内。技术发展一脉相承,车企加速部署人形机器人。Source:网络公开资料,甲子光年智库整理。p 自动驾驶是具身智能的一个重要场景,都具备“感知-决策-规划-控制”的算法架构,具身智能和自动驾驶在技术实现路径上是一脉相承的,且算法与零部件可实现高度复用,这是Tesla给业界带来的启
32、示。p 当下,智能辅助驾驶已经跑通商业化路径,进入卷交付、卷规模、卷性价比的阶段,这为具身智能未来的技术打磨路径和商业化提供了一些参考。p 同时,汽车行业从主机厂到供应商,从投资人到创业者,都在从自动驾驶转向追求更多场景的具身智能:主机厂或自研或投资具身智能公司,而人形机器人企业也在寻求机器人“进场打工”的机会。图1:自研或投资,国内车企与头部供应商加速人居具身智能产业图2:是供给也是需求,车企与humanoid的双向选择机器人进厂多为战略合作的试点开展,主要目的仍然是数据采集与训练车企制造流程高度标准化和流程化,能够为机器人提供高度确定性的封闭场景人形机器人可以在该场景内通过重复性高的动作学
33、习与泛化,丰富制造场景任务库车企基因产品或业务布局广汽集团传统主机厂第三代轮组人形机器人GoMate奇瑞汽车传统主机厂联合Aimoga研发Mornine比亚迪传统主机厂自研、投资、合作上汽集团传统主机厂对外投资北汽集团传统主机厂对外投资长安汽车传统主机厂预计2027年前发布人形机器人小鹏造车新势力AI人形机器人Iron小米造车新势力自研Cyberone华为智驾供应商成立具身智能产业创新中心宁德时代动力电池供应商自研、投资,机器人电池地平线智驾供应商计算芯片与开发者套件机器人厂商车企当前应用场景自研自用TeslaTesla分拣电池、搬运等其他任务小鹏小鹏抓取、组装、推车车企提供场景Figure
34、AI宝马搬运拿取零部件,放置与组装优必选比亚迪、吉利、东风、一汽、蔚来等搬运、质检、分拣、组装宇树科技吉利、蔚来搬运傅里叶上汽零部件组装与操作Apptronic奔驰取物、搬运、装备目 录Part 01具身智能的发展背景P02Part 02具身智能的发展现状P11Part 03应用场景和代表厂商P20Part 04发展挑战与技术趋势P36具身智能行业厂商图谱Source:公开资料,仅例举了行业内部分代表性企业且不分先后,甲子光年智库整理。p 源于不同技术背景的科技企业聚焦具身智能,其技术基因、产品形态、性能表现及应用场景的差异性正在帮助它们融入工业、服务、特种应用等各类型应用场景。在AI、机器人
35、及多元领域参与者的共同作用下,我国具身智能机器人行业正经历快速成长与扩张。汽车企业&Tier 1智驾技术架构离散制造场景人形机器人企业同源技术积累软硬件研发能力人形/四足仿生机器人、服务机器人,以及上游零部件等跨界玩家工业具身智能企业设计、运控技术同源工业场景需求洞察机械臂、协作机器人具身智能创新中心地方性产业链企业共建地方性机构、基金支持科技大厂&AI企业AI算法技术优势资金和生态优势互联网/科技企业载体形态多样,场景需求决定具身智能的落地形态。Source:基于公开资料整理,甲子光年智库。p 具身智能的物理载体形态呈现多样性,根据其移动特性或方式,可以分为固定底座机器人、轮式(履带式)机器
36、人、足式机器人、仿生机器人等,其中近期火爆的人形机器人属双足人形。p 具身智能具体形态的选择上需要洞察场景实际的需求,并不存在“最佳形态”的单一解,但人形机器人具备多场景的“泛用性”,在具身智能的验证、以及特定场景中的最终应用有既定优势。p 在实际应用场景中,不同形态的机器人可以进行有机地组合以满足具体的场景需求,如在轮式机器人上配备机械臂或灵巧手,配备轮式底座的机械臂既具备了轮式机器人移动迅速、能效高的特点,也兼备机械臂和灵巧手精细操作的优势。具身智能固定底座机器人轮式机器人足式机器人仿生机器人如:固定底座机械臂如:AGV、自动驾驶汽车如:四足机器人、双足人形机器人如:软体机器人、特种形态机
37、器人精度高、适用于重复性劳动工业自动化、实验室自动化等领域平坦路面移动迅速,能效高物流、仓储、交通领域适应复杂地形地形探测、救援,部分服务场景人形机器人是复合型,具备人类的外形和动作,融入人类环境中与人类协作、互动模仿自然生物的运动方式,在特定的环境中执行特定任务图:具身智能的形态分类AI助力机器人泛化性能提升,突破能力三角制约,进入更多场景。Source:专家访谈,配天机器人,甲子光年智库。p 基于人工预先编程的自动化设备,机器人已经被广泛用于工业制造领域并且已经相当成熟,但受限于预编程(或反复示教)的时间成本、机器人的智能化水平等原因的限制,机器人的应用仍然受限于“任务自主性”“任务复杂度
38、”“变化适应性”组成的能力三角形。p 大模型技术的快速发展,为具身智能技术的进步与应用提供了历史性的突破机遇,在提升机器人智能化水平的过程中,机器人将更全面、精准、敏捷的进行环境感知、任务理解和准确执行,不断提升机器人在复杂环境中处理复杂任务的能力,泛化水平将不断提升。任务自主性任务复杂度变化适应性模型性能泛化能力样本数量环境泛化任务泛化目标泛化本体泛化工业机械人/机械臂广泛用于工业制造领域,如装配、喷涂、打磨、焊接、擦洗等作业主要用于限定环境中的某一项或几项作业任务,高效率、高精度重复工作但普遍不具备柔性作业、灵活换线的能力,AI技术的加持有望突破这一桎梏AGV搬运车、扫地机器人等在仓库搬运
39、、商用与家用清洁等环境已经实现SLAM导航、自动驾驶功能与简单功能作业的能力能够在适度开放环境中试线但高精度任务和高复杂度任务作业无法胜任,需要未来AI技术的加持遥控操作机器人用于医疗手术、特种应用、排爆破拆等多种复杂任务的作业需要专业人士全程遥控操作,缺乏精准任务的自主决策能力,AI技术的加持有望加强这方面的能力图:具身智能技术的发展与应用,增强机器人泛化能力从专用到通用,从ToB到ToC,具身智能机器人应用场景持续拓宽。Source:公开资料,甲子光年智库。p 作为人工智能与机器人技术的最前沿,具身智能的应用场景会极度多元化,极具想象空间。p 在工业制造场景,机器人的任务执行和流程和任务本
40、身有高度规则性(可通过编程和训练来高效完成重复性高和强度大的任务)。其中,人类不愿意做的脏活、累活、危险任务,机器人具备极高的劳动力替代性。而服务场景更加开放,相关任务更加多样化,更加不可预测,需要机器人具备更强的自主决策能力与泛化适应性。应用场景从制造业导入,向商业和家庭服务场景逐步渗透,远期有望应用于航天航空等极限环境。趋势1:从ToB到ToC随着人形机器人在媒体和日常生活中的曝光度增加,消费者对人形机器人的接受度和期待值也在提高。核心零部件的技术进步使得生产成本降低,使得产品价格更加亲民,从而推动人形机器人进入家庭和个人消费市场。消费者对于智能化服务的需求将日益增长,如家庭服务机器人、教
41、育机器人、陪伴机器人等。趋势2:从专用到通用核心零部件的技术和人工智能、机器学习和自适应控制算法的发展使得机器人能够更好地理解和适应多变的环境。随着社会对机器人应用的需求增加,单一功能的机器人已无法满足市场的多样化需求,需要机器人具备更广泛的应用能力。极限环境制造业商业家庭服务自动化生产线安防巡检物流配送精密操作物流与仓储质量检验.零售与客户服务酒店旅游会场展览演示引导医疗保健教育培训娱乐表演.家政服务陪伴互动娱乐伙伴家庭助手安全监控.宇宙探索深海探索军事应用极地科考高辐射环境.2025年2030年2035年2040年专用通用具身智能率先落地的场景:工业制造Source:公开资料,甲子光年智库
42、。p 工业制造流程的特点使得该场景在具身智能技术落地应用方面占据先发优势,如柔性生产需求迫切、工作环境结构化程度高、成本效益优势突出等需求特点,刺激着工业制造场景客户对工业具身智能的应用更加期待。p 工业具身智能机器人能够有效提升工厂生产任务的灵活性与适应性,并在作业过程中实现自主学习,不断增强其复杂任务执行能力与操作精度。p 具身智能的训练需要数据,而质量更高的数据需要从真实场景中来,机器人落地最快的场景仍然是场景相对封闭的工业制造场景,越早实现规模化落地,就有望越早实现模型的能力提升。工业制造场景率先应用具身智能的原因具身智能机器人率先在工业制造场景创造价值对灵活生产需求性高传统机械臂交付
43、周期长、灵活性差、维护成本高环境结构化程度高生产环境固定且相对结构化:产线布局、作业流程更规律机器人更容易感知与作业,落地性更强积累数据结构化场景下,在安全底线上,更易采集机器人感知与操作数据,方便后续能力持续提升成本效益优势突出降本增效提高生产效率与标准化减少人力成本,缩短生产周期商业化动力强对核心零部件的要求不高,满足工况使用即可工厂客户成本可控,效益可见,更愿意投入生产排单灵活性 适应性快速响应生产线切换和参数调整适应当下多品类、小批次的生产增强执行能力与精度具备更精准的感知、更强的认知与规划能力提升效率的同时,处理复杂任务的能力不断提升智能决策&自主学习多模态大模型驱动,能够自主拆解复
44、杂任务并决策实施持续收集和分析数据,并优化自身性能,不断提升智能化水平 以“眼-手-脑-云”为基础,深挖需求场景,打造一系列行业通用化、智能化产品及解决方案具身智能工业场景应用代表厂商:微亿智造Source:微亿智造。核心技术架构具身智能工业机器人产品矩阵视觉AI+机器人智能控制全栈技术手工业机器人智能控制眼超精细图像感知&特殊材质成像技术脑“人机交互式”模型工厂云超级虚拟工厂云平台 机器人3D+2D融合的复杂场景感知算法 全自研机器人仿真环境 AI运动控制算法、自动点位生成与路径规划 突破高透光、高反光、漫反射等复杂表面检测瓶颈 打破国际垄断,实现国产进口替代 工业场景多模态和多任务学习的开
45、发时间减少30%+突破小样本、非标场景下机器视觉无法落地的限制 云端模型工厂,工业大数据平台 打造区域工业云,为“脑”打造模型,提供算力p 微亿智造致力于以工业人工智能及大数据技术,助力工业企业快速实现数智化转型升级。p 长期布局“工业AI算法+超精细视觉感知模组+工业机器人智能控制”的全栈技术,以“眼-手-脑-云”的实施架构为基础,打造一系列将感知算法与驱控算法相结合的“软硬一体”智能化产品,广泛适用于质检、打磨、抓取、搬运及焊接等各类工作,实时感知并适应复杂变化的工业环境。p 已组建面向3C、汽车、新能源等行业大客户的销售及解决方案团队,建立完善的服务体系,并与京东科技、中国移动、浪潮、中
46、国联通等合作,共同推出服务于全国中小型制造企业的平台化解决方案。具身智能工业机器人AI搬运及上下料AI质检AI焊接物料搬运机器人码垛拆垛机器人机床上下料机器人飞拍机器人(工小匠)灵镜PMD灵眸OCT激光焊接机器人弧焊机器人点焊机器人汽车制造、消费电子、新能源领域透明材质:镜片、薄膜等反光材质:电池壳体、车身漆面等AI装配与拆卸拆卸机器人装配机器人其他焊接应用案例:具身智能工业机器人“创Tron”Source:微亿智造。案例解析:“创TRON”助力打造离散制造智能化柔性适配生产线客户痛点更适合工业体质的具身智能机器人:“创TRON”依赖人工操作:人工精度低,速度慢,一致性无法保障产线换型频繁:物
47、料品种多,传统机械臂无法自主学习,调试成本过高应用效果提效:取代人工作业流程,提升线体生产效率,提升装配工作精度降本:大幅降低产线调试时间,降低换型调试成本安全:实时监测周围环境,人机协作更加安全迭代:持续积累操作数据,适应不断变化的生产环境与任务解决思路引入具身智能工业机器人解决方案,降低人工依赖,提升机械臂柔性作业能力快速学习接插件和操作对象,可生成复杂的接插任务使用视觉伺服引导机械臂完成高速、高精度装配工作更好地理解复杂的工业环境快速调整动态变化的生产任务提升产线的灵活性和适应性复杂环境感知:具身视觉模块,实时捕捉环境变化强任务理解:无需示教与编程,快速理解和拆分任务实时动态规划:动态识
48、别跟踪与避障,实时生成最优轨迹高速精准执行:实时控制频率1KHZ,快速响应规划轨迹像素级3D定位、复杂任务多模态感知大模型驱动的机器人生成式翻译器基于三阶约束轨迹规划、高维度实时路径规划超闭环控制、高速高精度触发、“驱控感一体”视觉伺服技术自然交互柔性作业持续迭代降本提效安全稳定p 客户为保定市某电气公司,专注于电力系统用大型配电柜、储能柜及其配套设备的供应。该公司拥有SMT线、涂敷线和机箱装配线等生产线,其中手插件装配每片PCB板耗时180至300秒,其他产品生产节拍各异且常需更换型号。p SMT产线单日处理超过100种产品,全年超2000种,且每年新增500多种新品类,导致产线频繁换型。引
49、入具身智能工业机器人后,显著降低了调试成本,提升了生产线的灵活性与适应性,成为离散制造业新质生产力的最佳实践。具身智能工业场景应用代表厂商:配天机器人Source:配天机器人。p 配天机器人是一家专注于工业机器人、核心零部件及行业自动化解决方案的提供商,是京城机电旗下的国家级高新技术企业。p 公司始终致力于机器人技术的自主研发及高端装备技术瓶颈的突破,同时前瞻性布局打造以具身智能、机器人行为大模型为核心的“AI+机器人”。p 植根于工业制造场景,配天在“AI+机器人”已经成功研发免示教焊接软件模块,基于绎零机器人运动控制引擎,通过视觉检测和感知技术实现对焊接任务的快速识别和自主调整,无需人工示
50、教即可投入使用,适应工厂灵活的排产需求。配天机器人:工业机器人全家福配天专注工业机器人及自动化领域13年;控制器、伺服系统等智能核心部件自主研发;工业机器人产品44款,负载范围3-280kg。其中:六轴工业机器人负载范围:3-280KgSCARA工业机器人负载范围:3-20Kg产线应用行业范围典型案例机器人焊接工作站&产线搬运上下料工作站&产线智能仓储物流AOI产品缺陷检测拆码垛、成品处理、包装产线定制化非标产线医药行业粉针剂类全自动混粉投料系统无源滤波器自动化智能柔性装配生产线金融行业智能分拣码垛工作站装配式建筑智能化产线植物纤维餐具检品机配天机器人:工业自动化解决方案AI加持:以免示教焊接
51、任务为例,从专机专用到单机多任务并行,并在低制造、部署、运营成本下,大规模部署在结构化、半结构化、非结构化环境中,并逐步向多样化任务延伸。船舶行业制药化工包装行业新能源材料建筑行业半导体行业3C汽车新能源化工玻璃制造食品加工金属加工橡胶和塑料工程机械覆盖行业:焊接打磨搬运码垛喷涂上下料场景应用:分拣切割装配应用案例:船厂BK板免示教焊接Source:配天机器人。p 某船舶制造厂商专注于碳钢船体结构的生产,其生产线包含焊接工序。该工序中,需人工焊接BK立板与BK基板,且生产模式呈现小批量、多品种的特点。传统焊接机器人因其柔性不足,难以适应此类生产需求。p 配天免示教焊接软件模块通过集成3D视觉系
52、统,能够自主识别工件信息,无需预先进行人工标记。该模块可自动提取焊缝特征,并基于此选择合适的焊接路径规划和工艺参数,最终驱动机器人完成焊接作业,有效满足该产线的柔性化生产需求。案例解析:AI赋能船厂BK板免示教焊接场景需求基于绎零控制引擎的免示教焊接:满足非结构化场景下的非标产品生产应用效果解决思路主要生产碳钢板,常规厚度12-25mm,需人工将BK板按照划线标识进行装配与焊接依靠人工上下料、装配与手工焊枪焊接多品种小批量,且产品间均存在差异工件放置(非结构化)任务配置设备连接速度设定点云扫描焊缝提取路径规划ARL生成一键空运行一键实焊一键运行:免模型专家算法驱动的离线编程:通过3D相机自主识
53、别工件类型、板厚和焊缝类型,自动提取焊缝,结合免模型专家算法自适应路径规划和工艺匹配;焊缝跟踪与实施修正系统:极高的视觉定位精度,实时的电弧跟踪修正;面向多种工艺场景的解决方案:船舶制造、轨道交通、航空航天、建筑钢构、电力制造等板材焊接、管材焊接,覆盖多种接头类型与多种焊缝类型。全自动流程从工业制造的确定性走向家庭服务的灵活性,具身智能价值极具想象力。Source:蓝驰创投,公开资料,甲子光年智库。p 机器人在C端的应用最具想象力,但短期来看,任务相对聚焦,对泛化能力要求不高工业制造场景下的任务正在更快进入商业化阶段。p 在工业制造场景实现商业化落地之后,海量机器人的具身数据叠加算力技术的进步
54、,机器人的能力将循序渐进逐步解锁,并向商用服务、家庭服务等更开放的场景进行延伸。C端应用家庭服务场景,包括养老、看护、家政服务、情感陪伴等商用服务住宿、餐饮、商超、批发零售柔性生产任务组装搬运分拣科研交互巡检模型能力足式机器人复杂空间轮式机器人平坦路面百亿级万亿级千亿级五百亿级五百亿级千亿级十亿级百亿级五亿级图:具身智能机器人在各类应用领域的市场空间分布工业场景服务场景具身智能代表厂商:英伟达Source:NVIDIA,公开资料,甲子光年智库整理。p 大模型训练与推理的需求背景下,英伟达凭借AI训练芯片成功坐上了人工智能算力领域的铁王座,是AI计算领域的绝对领导者。p 黄仁勋曾表示,AI的下一
55、个浪潮是具身智能。当前,英伟达已经从多个方面部署具身智能,包括计算平台的升级、多模态大模型的研发、软件开发工具包的发布和对外具身智能机器人公司的投资,正在形成一个完整的具身智能底层技术生态体系。p 在具身智能领域,英伟达维持了其“底层算力驱动者与研发生态构建者”的生态定位,专注于提供基础设施、算力支持和工具框架,同时通过硬件与软件的紧密结合,为开发者和企业赋能。图:Nvidia在具身智能领域的布局广泛,并于2025年发布了用于合成数据生成的Isaac GR00T Blueprint以加速智能机器人研发功能模块模拟&仿真芯片&算力Jetson Orin/ThorH200/B200 GPUIsaa
56、c SimProject GR00TIsaac LabIsaac ROS机器人操作系统Isaac NIMIsaac ManipulatorIsaac Perceptor实时计算和硬件控制,支持仿真结果的部署,为仿真和功能模块提供运行环境与优化高性能边缘计算平台、高效运行AI大模型高性能AI训练和推理芯片,适用于数据中心提供虚拟训练环境,用于设计、验证和优化机器人行为大规模并行仿真,支持多模态大模型的开发,可生成高质量数据集将模型部署到现实世界,可协调多机协同工作多模态大模型,为人形机器人提供感知和操作能力感知能力模块,支持视觉、听觉等感知人物专注机械臂的操作与控制,实现精确操作NVIDlA I
57、saac GR00T Blueprint For Synthetic Motion GenerationGR00T-Teleop工作流,借助Apple Vision Pro捕捉人类动作GR00T-Mimic工作流,将捕捉到的人类示范扩展成更大的合成运动数据集GR00T-Gen工作流,基于Omniverse和Cosmos世界模型会通过域随机化和3D升维,指数级扩增这个数据集*物理AI模型的开发成本很高并且需要大量真实数据和测试。Cosmos世界基础模型可以让开发者能够轻松生成大量基于物理学的合成数据以用于训练和评估其现有的物理AI模型与14家人形机器人厂商达成合作其中6家为中国企业具身智能代表厂
58、商:Google DeepMindSource:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,Google Deepmindp 来自Google DeepMind团队的RT-2模型能够从机器人数据和网络数据中学习,在保留web-scale能力的同时,将知识转化为机器人控制的通用指令,实现了从视觉语言模型到机器人动作输出的直接转化,提升了机器人控制的泛化能力和语义推理能力。p Deepmind基于PaLI-X和PaLM-E作为RT-2的等预训练视觉语言模型,将其调整为VLA(视觉语言动作模
59、型)。p 采用RT-2类似的训练方式,使用Open X-Embodiment数据集进行训练,得到了RT-2-X模型,相对于RT-2有了更好的泛化表现。对一个预训练的VLM模型在机器人和网络数据上进行共同微调生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作结合VLM预训练模型和机器人数据,RT-2实现了强大的机器人控制策略泛化性能显著提升大型预训练模型在多种任务中展现强大能力,但机器人获取类似能力面临数据规模和模型应用的挑战自然语言和视觉语言模型难以有效整合到机器人控制中局限一:虽然加入预训练VLM可提升对语义和视觉概念的泛化能力,但机器人并不能产生对新动作的创造能力RT-2的物理技能
60、局限于机器人数据中所见的技能分布数据集在技能维度上的多样性是未来机器人执行更多动作的关键突破点局限二:模型的计算成本很高,随着高频控制的场景的增多,实时推理会成为主要瓶颈目前可用于RT-2的视觉语言模型数量较少对模型量化和蒸馏技术的探索显得尤为重要,需要让此类模型以更高的速率运行,或在更低成本的硬件上运行图:RT-2的架构和训练具身智能代表厂商:Physical IntelligenceSource:Physical Intelligence,0:A Vision-Language-Action Flow Model for General Robot Control.p Physical I
61、ntelligence是一家2024年3月成立于美国旧金山的具身智能机器人初创公司,致力于将通用人工智能引入物理世界,开发大规模的人工智能模型和算法,为机器人提供动力,目前估值已达24亿美元。p PI于2024年10月发布了通用机器人基础模型0,先在高度多样化的机器人数据上进行预训练,调整为更强大的VLA,然后针对复杂任务进行微调。p 基于强大的预训练模型与多源数据集,0能够实现零样本学习的任务处理能力,以及经过高质量后训练数据微调之后诞生的复杂任务执行能力。PI-0通用机器人策略模型:采用了结合大规模网络数据的预训练视觉语言模型(VLM)主干包含各种灵巧操作任务的多样化跨具身数据集,以及Op
62、en X-Embodiment数据集添加一个独立的动作专家该动作专家通过流匹配生成连续动作,从而实现精确且流畅的操作技能该模型可直接基于提示执行任务,或在高质量数据上进行微调,以完成复杂的多阶段任务,比如折叠多件衣物或组装一个盒子。图:Physical Intelligence 0 通用机器人策略的模型架构具身智能代表厂商:Figure AISource:Figure官网,公开资料,甲子光年智库整理。p“Figure is giving artificial intelligence a body.”公司专注于研发和生产 AI 人形机器人,希望通过先进的AI扩展人类的能力。p OpenAI大模
63、型赋能的人形机器人,GPT系列多模态模型赋予了Figure 02对多种类信息输入的感知与理解能力,并使机器人通过语言与动作实现与周围环境、个体的交互。p 当前的Figure 02已经能完成叠衣服、餐桌清理、购物袋包装等相对复杂任务,并在汽车工厂中执行零件装配等劳动密集型任务。OpenAI ModelCommon sense reasoning fromimagesNeural Network PoliciesFast,dexterous manipulationWhole Body ControllerSafe,stable dynamicsSpeech-to-text“Can I have
64、sth.to eat?”Text-to-speech“Sure thing,here is an apple.”Behavior selection200hz actions1khz joint torquesOn-board robot images语音数据文本数据OpenAI多模态大模型文本数据语音数据强化学习动作模型全身控制器全身关节扭矩控制图像/视频等感知数据语音转文本文本转语音机器人移动后的外界反馈数据图像数据图像数据任务推理,行为选择机器人控制信息图:GPT-4o多模态大模型赋能Figure 02更强的常识推理与复杂任务的自主执行能力具身智能代表厂商:特斯拉Source:Tesla
65、,公开资料,甲子光年智库。p 特斯拉通过自身的品牌影响力与对“低成本量产”的目标,催化了人形机器人行业的发展,将这个原本专业且小众的领域快速走入大众视野。p 得益于自动驾驶领域的数据和算法优势,特斯拉顺理成章地率先转向具身智能人形机器人是顺利成章的。p 同时,特斯拉通过工艺技术创新和极致产品设计,成功地自研了电动汽车的核心零部件并极好地控制了成本,而这些电动汽车的核心零部件也可以大量地复用在人形机器人之上,例如视觉传感器、关节、电机、电池、热管理系统等。首次宣布开发Tesla Bot,代号Optimus,标志着特斯拉人形机器人项目开始正式推出原型机OptimusGen-1Optimus实现独立
66、行走功能Optimus开始能够执行相对复杂的任务,如物品分类、简单装配等Optimus Gen2发布,行走动作更加流畅,左右手作业更加精细化Elon Musk表示Tesla Bot将在2025年开启量产交付新一代灵巧手发布,拥有22个自由度(相对此前翻倍)2021.082022.092023.032023.052023.122024.012024.11软件层面:Optimus在软件层面与特斯拉自动驾驶领域有高度重合的环节,自动驾驶技术、数据和模型可以平滑迁移硬件层面:作为全球领先的电动汽车厂商,汽车身上的传感器与视觉系统、电池与能源技术、电机控制技术都能够作用于Optimus上,并且得益于大规
67、模的生产,各类硬件成本高度可控,直接影响人形机器人的成本价格资源层面:强大的资金优势、数据与算力储备、以及特斯拉的品牌影响力,为后续机器人量产与销售提供保障特斯拉Optimus发展历程及企业研发优势目 录Part 01具身智能的发展背景P02Part 02具身智能的发展现状P11Part 03应用场景和代表厂商P20Part 04发展挑战与技术趋势P36Source:公开资料,甲子光年智库整理。具身智能作为新兴技术,仍然面临训练数据与模型能力等多重挑战。p通过多学科的融合发展,具身智能已经展现出了赋能人类经济生活各方面的能力与潜力,但产业链各环节的发展与应用水平不一,仍然给具身智能的整体发展带
68、来了多维度的挑战。p机器人的智能化水平仍受到现有方法与能力的制约,其感知能力、执行能力、学习能力、自适应能力、硬件性能、验证方法等受限于技术水平与产业链现状,虽然展现出了潜力,但距离实际落地应用仍有较远的距离。2弱解释性问题3模型能力待提升1数据获取难题现有数据驱动的具身智能体暂时无法真正地理解知识、行为与环境之间的因果关系,难以在真实环境中可靠、稳健的运行在商用/家用服务场景下,机器人的“失效成本”很高,强调安全底线,一旦发生事故将可能造成严重后果,因此相对封闭的工业场景更适合率先落地当前的多模态大模型仍然处于快速发展中,语言、视觉、触觉等多模态融合感知能力尚浅,无法支撑机器人在开放场景的运
69、行在复杂环境与长周期的任务执行能力不足,现有的智能体与计算能力无法实现知识的有效转移与泛化,任务规划器无法实现通用场景的适应性高质量机器人数据集缺失:收集真实世界的机器人数据耗时且昂贵,但仿真数据暂未解决sim-to-real gap,3D数据集建设也仍旧缓慢行业中已经出现不少开源的机器人数据集,但数据质量参差不齐,且缺乏数据采集基准,无法实现跨场景、跨任务应用的通用机器人训练4技术路线不确定5缺乏验证方法6算力水平制约7伦理与安全问题数据赋能,联盟与开源数据集驱动具身智能机器人产业增长Source:公开资料,甲子光年智库整理。p 高质量的数据是训练高性能具身智能机器人的基础,联盟与开源数据集
70、的建设将有力推动相关技术的进步和应用落地,加速整个行业的增长。p 通过行业联盟、跨界合作等方式,共同构建高质量、大规模的具身智能数据集,解决数据稀疏和碎片化的问题。p 开源数据集能够降低研发成本,加速技术迭代,吸引更多开发者参与,促进创新生态的繁荣。全球:数据生态蓄势待发全球范围内已涌现出多种类型的具身智能数据集行为模仿数据集:记录人类或其他智能体完成任务的过程,如来自Google的Open X-Embodiment(跨平台、大规模机器人轨迹数据,加速通用策略研究)、RoboNet、DROID等强化学习环境与数据集:提供机器人与环境交互的数据,例如Habitat、RoboSuite等多模态感知
71、数据集:包含视觉、触觉、听觉等多种传感器信息,用于提升机器人的感知能力,如Saycan跨界合作,多方积极构建具身智能数据集科研机构与高校:如Stanford、Carnegie Mellon、MIT等科技巨头企业:如Google、Meta、NVIDIA等初创AI与机器人企业开源数据集的价值正在显现开源数据集对于加速具身智能机器人研发进程、降低开发门槛、促进技术普及X-Embodiment的开源,促进了通用机器人策略的研究,降低了跨平台开发的门槛中国:本土数据需求亟待突破国内在数据集建设方面仍面临严峻挑战数据量相对不足:与全球领先的数据集规模相比仍有差距,如Open X-Embodiment数据质
72、量参差不齐:缺乏统一的标准和规范数据孤岛现象:数据分散在不同机构和企业,难以互联互通,开源的项目相对较少数据安全与隐私问题依托广大市场与应用场景,中国开源数据集有极大的发展潜力开源数据集打破行业数据瓶颈,提升数据质量在先进制造及其他有中国特色应用场景积累数据集有部分企业与机构开始着手开放数据集建设,攻克数据卡点智元机器人AgiBot World:基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集国地共建具身智能机器人创新中心RoboMIND:首个通用的具身智能机器人训练开源数据集UNITREE G1人形机器人操作数据集鹏程实验室ARIO世界模型正在打造具身智能技术进步的“演武场”与“
73、弹药库”。Source:公开资料,甲子光年智库整理。p 世界模型能够辅助具身大模型进行训练,提供的训练型的仿真:其生成的视频交给具身大模型,具身大模型通过它的规划执行接下来的动作,接下来的动作交互产生新的场景、新的视角,再通过世界模型继续生成新的数据,进行闭环仿真的测试,成为具身智能机器人的“演武场”。p 另一方面,以NVIDIA新发布的Cosmos世界基础模型为例,WFMs能够为自动驾驶、具身智能机器人等多种AI模型提供符合物理规律的逼真数据,大幅度降低数据采集与标注的成本,充足的“弹药”有望在未来极大地加速具身智能的学习速度。p 在世界基础模型技术的发展推动下,具身智能的浪潮似乎有望来得更
74、快一些。特点World LabsDeepmind-Genie 2Nvidia-Cosmos侧重点从单张图像生成 3D 世界,强调空间智能生成可交互、可玩的 3D 环境,用于训练智能体构建物理感知 AI 模型,生成合成数据,强调物理准确性技术方法深度学习模型,3D 重建自回归潜在扩散模型,Transformer,CFG世界基础模型平台,不同规格模型核心能力2D 到 3D 的转换,遵循几何物理规则生成可控的互动环境,模拟物理效果,长时间记忆生成物理上准确的合成数据,理解物理因果关系应用领域3D 内容生成、VR/AR、机器人导航游戏开发、AI 智能体训练、虚拟环境模拟自动驾驶、机器人、物理模拟未来的
75、应用场景机器人导航:提供环境地图和物体识别;建筑设计、室内设计:从平面图生成 3D 模型;游戏开发:生成游戏场景、角色和道具;虚拟现实/增强现实:创建沉浸式体验;在线广告:生成商品 3D 模型,用于展示和虚拟试用;文化遗产保护:对古代建筑和文物进行 3D 重建。机器人训练:在虚拟环境中训练机器人执行各种任务;游戏AI:训练更智能、更逼真的游戏角色;虚拟社交:创建虚拟社交环境,用于虚拟会议、虚拟活动等;教育和培训:创建交互式学习环境,例如虚拟实验室、虚拟手术室等;电影和动画制作:生成虚拟场景和特效。合成数据生成:为各种 AI 模型提供训练数据,降低数据采集和标注的成本;自动驾驶:训练自动驾驶系统
76、,提高其在复杂交通环境中的适应性和安全性;机器人:训练机器人在复杂环境中执行各种任务,例如工业自动化、物流配送等;物理模拟:用于科学研究和工程设计,例如模拟流体流动、材料形变等;灾难预测和模拟:模拟自然灾害或人为事故,用于应急预案制定和救援演练。智库院长宋涛微信stgg_6406分析师翟惠宇微信zhaihy1203北京甲子光年科技服务有限公司是一家科技智库,包含智库、媒体、社群、企业服务版块,立足于中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,致力于推动人工智能、大数据、物联网、云计算、AR/VR交互技术、信息安全、金融科技、大健康等科技创新在产业之中的应用与落地扫码联系商务合作关注甲子光年公众号