1、多模态大模型的最新进展与趋势郭龙腾中国科学院自动化研究所紫东太初大模型研究中心YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20242n 多模态大模型的研究背景n 多模态大模型的关键进展n 多模态大模型的发展趋势n 多模态大模型的未来展望大纲|CONTENTYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20243多模态大模型是利用全网多模态大数据来实现类人多模态感认知的重要途径,有望推动语音、语言、视觉等多领域协同发展世界是多模态的,多模态协同更符合人类感知与
2、表达方式OPENAI 里程碑事件2022/11/30:文本对话大模型 ChatGPT2023/03/15:图文对话大模型 GPT-42023/10/05:多模态大模型 GPT-4V2023/11/08:多模态大模型 GPT-4-Turbo2024/02/16:文生视频大模型 Sora2024/05/14:多模态大模型 GPT-4o当前大模型公司均持续关注并大力投入研发多模态大模型YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20244AudioYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024Y
3、SSNLP2024YSSNLP20245海量多模态配对数据(图-文、音-文、图-文-音等)海量单模态数据(文本、图像、视频、音频等)多模态对话跨模态生成人机交互具身智能多模态应用多模态生成式解码网络单模态编码网络多模态融合网络海量多模态关联数据多模态大模型架构多模态学习优化自监督预训练多任务指令微调知识迁移通用知识学习YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20246n 多模态大模型的研究背景n 多模态大模型的关键进展n 多模态大模型的发展趋势n 多模态大模型的未来展望大纲|CONTENTYSSNLP2024YSSNLP
4、2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20247CVPR22:108篇多模态论文CVPR23:140篇多模态论文CVPR24:240篇多模态论文多模态论文数量跨越式增长Transformer Pretraining Large ModelYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024从多模态预训练向多模态大模型.任务1任务N预训练模型任务1数据模型微调任务1微调后模型.任务1任务N任务1示例In-context learning.任务1任务N多任务指令数据多模态指令微调对接大
5、语言模型 多模态指令微调n 具备多任务、开放域能力的多模态大模型取代预训练-微调范式成为研究热点YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024从多模态预训练向多模态大模型9GPT4定制化小模型预训练中模型预训练大模型Zero-shotp 过去几年,多模态预训练经历了从定制化小模型,到预训练中模型,再到预训练大模型的发展路线,VQA性能抬升了20+个点p 而GPT4多模态大模型在零样本测试下超越了大部分微调模型p 指明在大模型范式下实现多专多能的通用多模态模型具有巨大前景视觉问答任务VQA2.0YSSNLP2024YSS
6、NLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024能力更全面:More TasksnVisionLLMVisionLLM v2v2:支持使用文本、视觉和上下文指令来完成数百种视觉-语言任务,包括多模态对话、目标检测、实例分割、交互式分割、姿态估计、图像生成和编辑等。n以LLM为接口将任务上下文传输给不同的解码器VisionLLM v2:An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks,arxiv 2406.08