1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit夏夏轩轩 深深圳圳人人工工智智能能与与机机器器人人研研究究院院具具身身智智能能中中心心副副研研究究员员2017年博士毕业于上海交通大学。现为深圳市人工智能与机器人研究院副研究员,深圳市高层次人才。主要进行具身智能、多模态学习、缺陷检测、生成模型等方面的研究。主持国家自然科学基金项目、广东省自然科学基金项目、中国博士后科学基金项目,参与多项国家、
2、省、市基金项目以及多个企业联合项目。发表论文二十余篇,申请发明专利十余项。演演讲讲主主题题:具具身身智智能能数数据据工工程程:技技术术探探索索与与实实践践ML-SummitML-Summit2025 全球机器学习技术大会具身智能数据工程:技术探索与实践夏轩深圳市人工智能与机器人研究院ML-SummitML-Summit目录CONTENTS具身智能数据的价值具身智能的数据瓶颈具身智能数据工程具身智能数据生产平台AIRSPEED问题与展望ML-SummitML-Summit具身智能数据的价值01ML-SummitML-Summit具身智能数据价值所在具身智能数据的研发价值提高机器人功能的专业能力提
3、高机器人功能的泛化能力具身智能数据采集蓝海需求急剧增长供应商处于成长初期具身智能数据的获取门槛分散非标硬件依赖互联网机器人互联网用户:50亿数据估价:600美元/用户总估值:3万亿美元1机器人数量:100亿数据估价:1000美元/机器人总估值:10万亿美元2三倍以上1 Why Elon Musk thinks Earth will have more robots than humans,The Telegraph,https:/www.telegraph.co.uk/business/2024/04/01/elon-musk-earth-more-robots-than-humans,acc
4、essed 2024/04/082 The Tesla Robot:What will Optimus be able to do and how much will it cost?,The Sun,https:/www.thesun.co.uk/tech/21845043/tesla-robot-optimus-cost/,accessed 2024/4/08ML-SummitML-Summit具身智能的数据瓶颈02ML-SummitML-Summit已有研究:模仿学习的Scaling Laws物体/环境泛化能力模型对于新物体/新环境的泛化能力,与其训练时接触的物体/环境数量之间,呈现幂律
5、关系1单一场景成功率成功率与数据量呈现出Michaelis-Menten曲线:success_rate=100%*D/(K_m+D),其中D是数据量,K_m是达到50%成功率所需数据量2空间泛化能力空间泛化所需数据量与空间体积呈现幂律关系:如果要扩展到x倍的空间体积,那么数据量需要扩展大约x0.35倍21 Lin,Fanqi,Yingdong Hu,Pingyue Sheng,Chuan Wen,Jiacheng You,and Yang Gao.Data scaling laws in imitation learning for robotic manipulation.arXiv pre
6、print arXiv:2410.18647(2024).2 Tan,Hengkai,et al.ManiBox:Enhancing Spatial Grasping Generalization via Scalable Simulation Data Generation.arXiv preprint arXiv:2411.01850(2024).ML-SummitML-Summit具身智能在数据驱动范式下的瓶颈?模型性能增长遵循幂律,数据增长遵循线性真实数据的采集速度永远不可能跟得上模型性能的增长需求?合成数据可以在哪些方面对真实数据形成有效补充?具身智能的数据瓶颈究竟是什么?具身智能的