《智驾与机器人之VLA技术深度:行业概述、发展背景、架构案例及相关公司深度梳理-251103(37页).pdf》由会员分享,可在线阅读,更多相关《智驾与机器人之VLA技术深度:行业概述、发展背景、架构案例及相关公司深度梳理-251103(37页).pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、 1/37 2025 年年 11 月月 3 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 智驾与机器人智驾与机器人之之 VLA技术技术深度:深度:行业概述行业概述、发展背景发展背景、架构案例架构案例及相关公司深度梳理及相关公司深度梳理 在当今科技飞速发展的时代,人工智能正以前所未有的速度重塑着各个行业的面貌。其中,Vision-Language-Action(VLA)模型作为一项融合视觉、语言与动作三大模态的前沿技术,正在成为智能驾驶与通用机器人领域迈向更高智能化水平的关键推动力。从谷歌 DeepMind 将 VLA 框架引入机器人与自动驾驶领域,到众多企业纷纷投入研
2、发并取得突破性进展,VLA 技术的发展不仅为解决智能驾驶在复杂场景下的瓶颈问题提供了新思路,也为机器人从专用工具向通用智能伙伴转变带来了新机遇。本报告将深入剖析 VLA 技术的全貌。首先,对 VLA 模型进行概述,介绍其发展背景等内容。接着,分别分析 VLA 模型在智能驾驶和机器人行业的应用情况,并针对典型的架构案例进行详细介绍。最后,梳理当前可能受益于 VLA 技术发展的公司。报告旨在为关注者提供一份全面、深入且具有前瞻性的行业深度研究报告,助力读者把握 VLA 技术发展的脉络与趋势,洞察其在智能驾驶与机器人领域的深远影响与广阔前景。目录目录 一、行业概述.1 二、发展 VLA 的原因.3
3、三、智能驾驶 VLA 模型.4 四、机器人 VLA 模型.19 五、VLA 架构案例.25 六、相关公司.35 七、参考研报.37 一、一、行业行业概述概述 1、VLA 概念概念 当前,当前,VLA 模型的快速发展正成为智能驾驶与通用机器人领域范式变革的核心推动力。模型的快速发展正成为智能驾驶与通用机器人领域范式变革的核心推动力。Vision-Language-Action(VLA)模型是将视觉(Vision)、语言(Language)与动作(Action)三大模态深度耦合的端到端智能体系。其核心在于以统一的多模态表示与训练框架,将“看懂做”三环节打通:模型直接接收图像模型直接接收图像/视频等
4、感知输入与自然语言任务指令,经过联合表征与时空推理,输出可执行的物视频等感知输入与自然语言任务指令,经过联合表征与时空推理,输出可执行的物理世界控制量(如机器人关节轨迹、车辆转向与纵向控制命令)。理世界控制量(如机器人关节轨迹、车辆转向与纵向控制命令)。相较传统“感知决策控制”分段式管线,VLA 以单一骨干网络承载跨模态特征对齐与意图理解,减少中间信息丢失与手工规则依赖,实现对目标、场景、语义约束与行动策略的协同优化;在部署侧,可结合记忆与规划头实现闭环推理,提升 2/37 2025 年年 11 月月 3 日日 行业行业|深度深度|研究报告研究报告 对复杂、长尾场景的泛化稳健性与拟人化决策能力
5、。VLA 因而成为智能驾驶与通用机器人迈向“大模型一体化”的关键枢纽,并为后续与世界模型、端云协同训练及轻量化蒸馏等路径的结合奠定基础。2023 年 7 月,谷歌 DeepMind 发布 RT-2 模型,将 VLA(Vision-Language-Action)框架引入机器人与自动驾驶领域。通过融合大语言模型与多模态数据训练,该模型实现了任务理解与执行能力的显著跃升,准确率提升近一倍,并具备对零样本任务的泛化能力,验证了视觉、语言与动作深度融合的有效性,为VLA 在智能驾驶等产业化应用奠定基础。2、VLA 三大核心模块三大核心模块 一般而言,VLA 模型架构具有三个核心组成:多模态编码器(动作
6、、文本、图像等)、大语言模型用以接收信息和进行推理、解码器用于输出轨迹和动作。但也有部分模型只含有两个模块,如 Open VLA 使用 LLM 主干直接输出 action 指令。YWOWvMrPyQnOpQtOpMqQmO9P8QaQsQqQsQsPlOoPpOjMmMnR8OqQuNMYrNqQvPmRnP 3/37 2025 年年 11 月月 3 日日 行业行业|深度深度|研究报告研究报告 3、VLA 应用应用现状现状 当前,当前,VLA 在自动驾驶场景中得到广泛应用:在自动驾驶场景中得到广泛应用:VLA 模型从自动驾驶车辆各类传感器收集的数据里,挖掘出丰富的周边环境信息;借助强大的语言模