《20231125 王文冠_watermark.pdf》由会员分享,可在线阅读,更多相关《20231125 王文冠_watermark.pdf(65页珍藏版)》请在三个皮匠报告上搜索。
1、G R A D U A T I O NR E P O R TT E M P L EF O RZ H E J I A N GU N I V E R S I T Y知识与大模型驱动的具身智能王文冠浙江大学人工智能省部共建协同创新中心人工智能研究所知识与大模型驱动的具身智能知识与大模型驱动的具身智能感知决策交互推理规划知识与大模型驱动的具身智能专家模型与领域知识库大规模数据三维场景理解视觉语言导航行为规划感知决策交互推理规划通用大模型+专家小模型多模态AI大模型领域任务小模型调度知识与大模型驱动的具身智能目 录01基于大-小模型协同的具身交互03知识和大模型双驱动的智能规划0402知识和数据双驱动的
2、智能推理基于BEV 3D感知的具身决策知识与大模型驱动的具身智能目 录01基于BEV 3D感知的具身决策基于大-小模型协同的具身交互03知识和大模型双驱动的智能规划0402知识和数据双驱动的智能推理Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策 目标:基于2D相机视角,构建BEV(鸟瞰图)感知,实现具有3D场景感知能力的具身导航智能体 问题:目前具身导航智能体大多基于2D视角进行规划决策,缺乏3D空间感知能力 方法:输入2D环视图,经视角转换模块投影得到BEV特征,通过3D目标
3、检测及空间占用预测感知3D空间,提升性能经过沙发左转,然后立即右转,通过左侧的门进入卧室。2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图基于BEV 3D感知的具身决策2D2D图像特征图像特征基于基于注意力机制注意力机制3D3D体素特征体素特征池化压缩池化压缩鸟瞰图特征鸟瞰图特征鸟瞰图构建方法2D2D-鸟瞰图特征编码鸟瞰图特征编码 2D环视图-BEV特征:经视角转换模块投影到3D体素空间中,通过池化压缩得到BEV特征 视角转换模块基于注意力机制实现,并引入相机内外参的几何先验Birds-Eye-View Scene Graph
4、for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策经过沙发左转,然后立即右转,通过左侧的门进入卧室。2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图场景布局细粒度的几何信息 通过3D目标检测和空间占用预测任务,增强导航智能体对场景布局的理解,捕捉细粒度的几何信息Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策 在导航过程中,基于BEV特征构建实时的场景拓扑
5、图,为当前场景构建全局地图2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图存储场景信息经过沙发左转,然后立即右转,通过左侧的门进入卧室。Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策常规内容页标题 微软雅黑 30号字2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图经过沙发左转,然后立即右转,通过左侧的门进入卧室。网格级决策空间(t)拓扑决策空间(t
6、)局部决策全局决策 完备的决策空间:基于场景拓扑图的全局决策空间+基于BEV特征的局部决策空间Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策指令:经过沙发左转,然后立即右转,通过左侧的门进入卧室。实时3D目标检测实时空间占用预测Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023知识与大模型驱动的具身智能目 录01基于BEV 3D感知的具身决策基于大-小模型协同的具身交互03知识和大模型双驱动的智