1、多模态大模型的实践与思考多模态大模型的实践与思考朱优松 副研究员中国科学院自动化研究所大模型研究中心2024.08大模型开启人工智能新一代技术革命2n 大模型技术的突破掀起了人工智能的新一轮技术革命,产业需求呈现爆炸式增长,全新的应用场景和应用模式正在迅速涌现。重塑办公模式程序自动设计AIGC.大模型+人形机器人大模型+自动驾驶特斯拉 FSD V12FSD V12:感知-规划-决策端对端,不需要为减速带、停车标志或环形路口编写程序Figure 01Figure 01机器人:通过GPT4大模型加持,机器人可以听懂人类指令和提问,能对话、能思考、能学习大语言模型快速发展,百花齐放Wayne Xin
2、 Zhao et al.“A Survey of Large Language Models”.In:arXiv preprint arXiv:2303.18223(2023).语言模型任务求解能力的演化过程大语言模型典型特征:参数量大:从几十亿参数到数千亿参数,例如GPT-3模型的参数量高达1750亿(与人脑神经元数目一个量级);训练数据大:数万亿Tokens(all data in internet);训练算力大:数千甚至数万个GPU,耗费几个月才能完成一次训练;通用性是大语言模型的显著特征,在广泛的下游任务(语言理解、语言生成)中达到甚至超过人类的水平大语言模型给通用人工智能带来了无限可
3、能ChatGPT系列被称为是“通用人工智能的火花”GPT4在一系列考试中表现优异GPT4解高等数学题Bubeck S,et al.Sparks of artificial general intelligence:Early experiments with gpt-4.arXiv:2303.12712,2023.Foundation Models(基础模型)The five key properties of a foundation model:The five key properties of a foundation model:Expressivity:to flexibly ca
4、pture and represent rich informationScalability:to efficiently consume large quantities of dataMultimodality:to connect together various modalities and domainsMultimodality:to connect together various modalities and domainsMemory capacity:to store the vast amount of accumulated knowledgeCompositiona
5、lity:to generalize to new contexts,tasks and environments2021年8月,斯坦福大学众多学者,包括Feifei Li,Dan Jurafsky,Christopher D.Manning(三位美国科学院院士),联合撰写文章“On the Opportunities and Risks of Foundation Models”,将预训练大模型称之为基础模型(Foundation models),并指出基础模型是未来人工智能发展的重要方向。Feifei LiDan JurafskyChristopher D.ManningBommasani
6、 R et al.On the opportunities and risks of foundation models.arXiv preprint arXiv:2108.07258,2021.婴儿阶段的早期概念习得过程(from Emmanuel from Emmanuel DupouxDupoux)感知习得各类模态的示例:自然语言(说/写)视觉(图像/视频)听觉(声音/语音/音乐等)触觉嗅觉/味觉生理信号(心电图ECG,皮肤电传导等)其他(红外图像,深度图,核磁共振图像)应用和行为方面:心理学医学声学视觉语言多媒体机器人学习人类的学习和交互过程充满了多模态信息紫东太初大模型攻关历程不同场