《中移智库:2024多模态大模型(MLLMs)轻量化方法研究现状和展望报告(14页).pdf》由会员分享,可在线阅读,更多相关《中移智库:2024多模态大模型(MLLMs)轻量化方法研究现状和展望报告(14页).pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、 多模态大语言模型(MLLMs)轻量化方法研究现状和展望中国移动研究院 业务研究所2024 年 12 月中移智库 摘要摘要多模态大语言模型(MLLMs)在视觉问答、视觉理解与推理等任务中展现出卓越的性能,但多模态大语言模型庞大的模型规模和高昂的训练、推理成本限制了其在学术界和工业界的广泛应用。因此,研究高效且轻量化的多模态大语言模型,特别是在边缘计算场景中,潜力巨大。本文将全面介绍当前多模态大语言模型轻量化的方法及研究现状,并探讨其局限性及未来潜在的发展方向。一、一、多模态大语言模型概述多模态大语言模型概述(一)什么是多模态大语言模型?(一)什么是多模态大语言模型?多模态大语言模型是一种创新性
2、的人工智能模型,巧妙地融合了大语言模型与多模态处理能力。它能够理解和生成涵盖多种模态的数据,如文本、图像、视频、音频等,并通过多模态信息的融合实现更广泛、更复杂的任务。多模态大语言模型不仅具有强大的语言处理能力,还能通过对图像、视频或其他模态的理解,进行跨模态任务处理,比如视觉问答、视觉推理、多模态内容生成等。2/14中移智库(二)为什么要轻量化?(二)为什么要轻量化?多模态大语言模型的成功主要得益于缩放定律(scalinglaw),即资源投入越多,性能越高。然而,高资源需求限制了其开发和部署。例如,MiniGPT-v2 模型16的训练耗时超 800GPU 小时,LLaVA-1.5-Vicun
3、a-13B3模型推理需 18.2T FLOPS 和41.6G 内存,资源消耗巨大。目前,主流多模态大语言模型多由少数企业掌控,云端运行模式引发普及化和隐私保护担忧,同时,高算力需求也限制了边缘设备的应用,对公平访问和隐私保护构成挑战。鉴于此,轻量化多模态大语言模型的研究日益受到重视,旨在降低资源消耗、提高适用性,同时尽量减少性能损失。二、二、多模态大语言模型轻量化方法研究现状多模态大语言模型轻量化方法研究现状多模态大语言模型主要由三个核心模块组成:视觉编码器、预训练大语言模型、以及视觉-语言投影器,如图 1 所示。轻量化多模态大语言模型的优化措施主要集中在对上述三个模块的改进,并引入了视觉 t
4、oken 压缩技术和高效的结构设计。3/14中移智库 图1 多模态大语言模型的轻量化架构出自论文Efficient Multimodal Large Language Models:A Survey(一)三个核心模块优化(一)三个核心模块优化视觉编码器:视觉编码器:负责接收和处理视觉输入。轻量化的多模态大语言模型通常选择使用预训练的视觉编码器模型(如CLIP4),以便更好地对齐视觉与文本输入的特征空间。由于视觉编码器在多模态大语言模型总参数中的占比较小,其轻量化优化的效果不如语言模型显著,因此大部分轻量化多模态大语言模型通常仍沿用大规模多模态大语言模型中广泛采用的视觉编码器。预训练大语言模型:
5、预训练大语言模型:大语言模型是多模态大语言模型的核心组件,用于管理多模态信号并执行推理。多模态大语言模型中获取小的大语言模型的方案一般分为两种:一是直接使用小一是直接使用小的轻量化模型的轻量化模型。轻量化的多模态大语言模型通常使用参数少于30 亿的小型语言模型,如微软的 phi2-2.7B 模型17和谷歌的 4/14中移智库 Gemma-2B 模型2。Phi-2 模型在特殊数据集上训练后,其性能可以匹配使用常规数据集训练的 25 倍大模型。Phi-3-mini 模型2可以轻松地在现代手机上本地部署,且其质量与 Mixtral8x7B18模型和 GPT-3.5 等模型相当。二是使用模型压缩技术对
6、二是使用模型压缩技术对大语言模型进行轻量化处理。大语言模型进行轻量化处理。一般常用的模型压缩方法包括:量化,剪枝,知识蒸馏,紧凑的架构设计,动态网络等,这些方法在传统的深度学习网络(如 CNN 和 RNN)中已有广泛应用,而在大语言模型的优化中也有了更深入的探索。每种方法的具体实施方案和效果因任务需求和硬件约束而异,在此不再逐一详细介绍。视觉视觉-语言投影器:语言投影器:是连接视觉与文本桥梁,其核心功能是将视觉特征块映射至文本特征空间。针对此模块的轻量化,包括四种:一是基于注意力。一是基于注意力。如 BLIP27引入了 Q-Former,一个轻量级的 Transformer,使用一组可学习的查