《谢春宇_多模态大模型:开放世界理解.pdf》由会员分享,可在线阅读,更多相关《谢春宇_多模态大模型:开放世界理解.pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20242024多模态大模型:开放世界理解谢春宇/360多模态团队负责人 背景 图文多模态大模型 360多模态大模型探索 业务落地实践1234什么是大模型大参数大算力大数据什么是大模型大数据大参数大算力背景q人工智能AGI,我们需要什么?ChatGPT的发布标志着自然语言处理技术迈入了一个全新的阶段。自2022年底亮相以来,它凭借其惊人的语言生成能力,迅速成为AI领域的焦点。ChatGPT能够进行连贯、深度的对话,甚至创作诗歌、撰写文章,展现出了前所未有的创造力和理解力。这一突破不仅激发了公众对于AI技术的兴趣,还加速了科技界对通用人工智能
2、(AGI)的研究步伐。在教育、写作、娱乐等多个领域,ChatGPT的应用潜力正在被不断挖掘。教育工作者利用它辅助教学,作家借助它激发灵感,企业则将其融入客户服务,提高了效率与体验。同时,ChatGPT也引发了关于AI伦理、隐私保护及就业市场变革的广泛讨论,促使社会各界思考如何在享受AI红利的同时,建立相应的监管框架,确保技术的健康发展。总之,ChatGPT的出现不仅是技术上的革新,更是对人类社会未来发展路径的一次深刻启示。背景q人工智能AGI,我们需要什么?GPT4做为新一代的GPT模型增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成增加了多模态能力的GPT4也带来了
3、应用层面的更多可能GPT-4V增强的视觉能力分析和理解图像内容,提供描述、识别对象,甚至解释场景根据图像生成创意文本格式翻译图像中的文本,强大的OCR能力GPT-4O具备原生多模态能力支持文本、音频、图像任意组合性能提升,更快的响应速度背景q视觉能力是通用人工智能AGI需必备的基础能力人类智能本身高度依赖于视觉感知理解世界情境感知交互能力学习能力识别物体预测运动视觉-语言跨模态学习 Vision-language cross modal learning,亦称为VLP(Vision-Language Pretrain)、VLM(Vision-Language Model),代表性的工作是20年
4、OpenAI的CLIP,开启和引领了CV多模态研究的大模型时代Li,Yingming,Ming Yang,and Zhongfei Zhang.Multi-view representation learning:A survey from shallow methods to deep methods.arXiv preprint arXiv:1610.012061(2016).视觉-语言跨模态学习Radford,Alec,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry
5、et al.Learning transferable visual models from natural language supervision.InInternational conference on machine learning,pp.8748-8763.PMLR,2021.0.4B1.8B5B5BCLIP20ALIGN21BASIC22DFN23Data Size视觉-语言跨模态学习中文图文跨模态模型 R2D2图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值,来自于360搜索的实际业务需求非常强烈。360搜索:使用跨模态模型之前的搜索结果36
6、0搜索:使用跨模态模型之后的搜索结果视觉-语言跨模态学习中文图文跨模态模型 R2D22300万训练数据,在中文图文检索任务上达到SOTA双塔base+单塔head的混合模式专门针对数据噪声设计的momentum-updated encoder和masked input+soft label双蒸馏1 Xie Chunyu,et al.CCMB:A Large-scale Chinese Cross-modal BenchmarkC/Proceedings of the 31st ACM International Conference on Multimedia.2023:4219-4227.视
7、觉-语言跨模态学习中文图文跨模态模型 R2D2伴随着算法和模型,我们一同开源了对应的图文跨模态数据集Zero,包含2.5亿中文图文对数据基于用户点击CTR筛选,数据质量更高https:/2300万3000万1亿2.5亿Zero V1WenLan21WuKong22Zero V2Data Size 背景 图文多模态大模型 360多模态大模型探索 业务落地实践1234图文多模态大模型LMM的研发回顾 LMM=Large Multimodal Model,之前亦称为MLLM(Multimodal Large Language Model),目前也有小部分工作为了强调视觉能力将其称为LVM(Large
8、 Vision Model)。LMM是在单文本模态的语言模型LLM基础上发展起来的研究方向,旨在解决纯文本语言模型LLM只能理解文本输入的先天缺陷,赋予大模型对多模态信息混合输入的理解和处理能力,在此基础上可以再进一步实现多模态信息的混合输出能力 相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有23年1月Saleforce的BLIP-2,以及近期
9、的Idefics2和InternVL2等工作Gemini12-6-2023闭源GPT-4O5-14-2024闭源Qwen-VL8-15-2023开源LLaVA4-17-2023开源Idefics24-15-2024开源InternVL26-25-2024开源图文多模态大模型路线选择 原生多模态路线的理论上限更高,但对应的是训练成本远高于缝合路线;缝合路线因为可以复用各个单模态领域的已有成果,因此具有很经济的训练成本优势。少数的巨头机构采用的是原生多模态路线,其它绝大多数企业和学界研究机构采用的是缝合路线卡*月290580137406478130519845SimVLMCoCaCogVLMPAL
10、IIDEFICSFlamingoPALM-E2905801374064781305198450500010000150002000025000SimVLMCoCaCogVLMPALIIDEFICSFlamingoPALM-E图文多模态大模型第一代LMM 多模态LMM的研发从22年底到现在,从整个业界的角度来观察,有着非常明显的代际更替 第一代LMM(22年1123年6月)的代表性工作主要包括BLIP-2,LLaVA,miniGPT4以及国内智谱的VisualGLM、阿里的mPLUG-owl、自动化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月开源的SEEC
11、hat(360VL的前身)也属于第一代LMM。这一代LMM的能力主要为针对图像内容的对话和问答,支持的图像分辨率非常低(224224),研发的重心主要聚焦在模态对齐的原型验证上图文多模态大模型第二代LMM 第二代LMM的研发,时间上大致为23年611月。从第二代LMM的研发开始,整个业界开始呈现出研发投入逐渐增强,研发竞争急剧扩大的情况。第二代LMM从研发的角度主要是要为LMM增加目标定位的能力,相比粗粒度的图像内容问答,增加目标定位能力是多模态LMM能够在Agent、机器人、自动驾驶、安防巡检等场景中落地实用的必要前提图文多模态大模型第三代LMM 从23年11月至今,业界已经转入第三代LMM
12、的研发。第二代LMM的研发中暴露出以下几个关键问题,需要在第三代LMM的研发中进一步解决I.高分辨率输入的支持2代LMM的分辨率基本都处在336448之间II.图文模态间的竞争几乎所有的工作都回避了语言模型能力下降的问题III.多模态的Scaling Law缝合路线的天花板是否已经出现图文多模态大模型高分辨率输入的支持第一代LMM所能处理的图像分辨率固定为224(对应图像token数32256),第二代LMM的典型分辨率是336448。主要制约因素是训练的成本和语言模型的窗口大小:一方面图像分辨率越高,图像编码后的image token数越多,对应的训练成本越高;另一方面23年语言模型的输入窗
13、口大小普遍在1K左右,过长的图像编码token长度会压缩文本输入的空间,导致问答能力的下降。图像分辨率支持不够高带来的问题,一方面是LMM在图像对话/问答中对细节的理解能力受限,另一方面更为重要的是作为通用模型的LMM很难在下游任务上实现对传统专业模型的超越,这也是目前LMM在实际落地应用中的最显著障碍目前第三代LMM模型通过将输入图像切块的方式已基本解决了高分辨率图像支持的技术障碍,同期语言模型的输入窗口也普遍从1K提升到4K、8K甚至几十万字,24年2月后开始陆续有第三代LMM的工作实现了高分辨率以及混合分辨率的支持,代表性的工作有LLaVA1.6,阿里的QwenVL-plus/max,金
14、山的Monkey,旷视的Vary等工作。图文多模态大模型图文模态间的竞争 多任务训练一直以来存在任务间竞争的问题 在多模态LMM的研发上,多任务的竞争问题更为显著,特别是视觉模态vs文本模态的竞争Option I:保持LLM原有能力,模型融合设计和训练的难度更高。代表性的工作是做为LMM先驱的Flamingo。模型结构上专门设计了多模态融合的缝合层,内嵌的LLM训练时固定不受影响。360 SEEChat和智谱的CogVLM采取了类似方案。优点是严格能力超集,缺点是训练难度更高。Option II:当前大多数工作的选择则是在LMM上放弃文本模态的能力,只强调视觉模态的能力。为了尽可能提升LMM在
15、视觉任务上的表现,将LLM打开参与视觉任务训练。这么做的优点是可以降低LMM在模型设计和训练上的难度,容易刷高LMM在视觉任务上的指标,但LLM会发生显著的遗忘效应。融合路线:在多模态训练时加入文本数据,来缓解LLM的遗忘问题图文多模态大模型多模态Scaling Law 缝合路线目前最大的障碍:不具有很好的data-performance scaling up能力 当前缝合路线的模型结构基本已经收敛为image encoder+projector+LLM的结构,其中image encoder负责图像编码,LLM负责对话逻辑,projector作为缝合层将视觉编码器和语言模型进行桥接缝合 但是当
16、前以LLAVA为代表的浅层缝合模型,通常在百万训练量级后就已经饱和,将训练量提高到千万甚至几亿的量级并不能带来LMM模型能力的明显提升 背后的根本原因,要追溯到缝合路线下LMM中内嵌的语言模型能力是否需要保持上 两种解决方案:方案一:在image encoder+projector上做文章,将海量数据的信息在预训练阶段训练到视觉编码器和缝合层中,语言模型参数仅在最后的指令微调阶段参与训练。代表性的工作包括国内零一万物的Yi-VL,书生浦语InternLM-XComposer-VL,韩国KaKao Brain的Honeybee等方案二:在多模态训练过程中也同步加入相当比例的纯文本训练数据同时进行
17、训练,代表性的工作包括Apple的MM1和国内幻方的Deepseek-VL等工作图文多模态大模型Gemini12-6-2023GoogleGPT-4O5-14-2024OpenAIIdefics24-15-2024Hugging FaceDeepSeek-VL3-18-2024幻方360VL5-16-2024360研究院InternVL26-25-2024上海AI LAB第一代LMM第二代LMM第三代LMM图文多模态大模型MiniGPT4模型结构:采用 BLIP2 的 ViT 和 Q-Former 作为视觉编码器,采用 Vicuna 作为文本解码器,通过一个线性映射层将视觉特征映射到文本表示空
18、间模型训练:冻结视觉编码器和文本解码器,只训练线性映射层Pre-traing:5M图文数据对齐SFT:3.5K人工矫正数据图文多模态大模型LLaVA模型结构:采用 CLIP VIT-L/14作为视觉编码器,采用 Vicuna 作为文本解码器,通过一层MLP做线性映射模型训练:Pre-traing:从 CC3M 中通过限制 caption 中名词词组的最小频率过滤出595k图文数据,冻住视觉编码器和文本解码器,只训练线性映射层SFT:映射矩阵与语言模型均更新图文多模态大模型LLaVA-1.5数据增加更多微调数据VQARegion-level VQA中英双语ShareGPT对特定问题设计promp
19、t模型增加VL connector容量提升模型分辨率更大杯LLM图文多模态大模型LLaVA-Next混合分辨率支持自适应选择最佳缩放尺寸1x1,1x2,1x3,1x4,1x5,1x6,2x2,2x3等模型性能更好的LLM(Mistral-7B、Nous-Hermes-2-Yi-34B数据高质量GPT-4V数据(LAION-GPT-V 和 ShareGPT-4V)用户反馈真实数据增强OCR能力(DocVQA、SynDog-EN等)加强图表理解能力(ChartQA,DVQA,和 AI2D)图文多模态大模型DeekSeek-VL视觉编码器384分辨率SigLIP与1024分辨率SAM的结合,全局+细
20、节语言能力退化?联合视觉语言预训练中加入大量纯文本数据图文多模态大模型Idefics2模型SigLIP+Perceiver Resampler+Mistral-7BResampler降低图像token,提升效率保持aspect ratio,4 crops and original 数据interleaved数据图文对(高质量的人工标注PMD+高噪声的laion)PDF文件(OCR-IDL,PDFA,Rendered Text)Cauldron微调数据图文多模态大模型InternVL2大容量ViT:InternViT-6B性能更强的LLM:InternLM2/Llama3动态高分辨率策略视频等更
21、多数据的引入 背景 图文多模态大模型 360多模态大模型探索 业务落地实践1234360多模态大模型探索基于单模态专家缝合方案的多模态模型SEEChat SEEChat项目(https:/ Experts Efficient integration)主打能力:q 严格超集:SEEChat MLLM的视觉能力做为内嵌语言模型的严格超集存在,强调不影响语言模型原有的能力q OVD:在对图像内容的整体理解之外,能够同步给出涉及目标在图像中出现的位置360多模态大模型探索qSEEChat模型BLIP-2 ViT+Qformer+projection layer+chatGLM6B+LoRAStage
22、IImage-Text Alignment训练数据23M中文图文对1+BLIP-CapFilt方法重新生成caption,只训练projection layerStage IIHuman-Text AlignmentV1.0 通用领域模型:Instruction-following data(LLAVA 158k+miniGPT4 3.5k)finetune projection layer+chatGLM+LoRAStage IIIDomain AlignmentV1.1 领域适配模型:Instruction-following data,按照LLAVA方式半自动化标注一批领域数据 浅层融合
23、模型,主打Dialogue+Captioning+OVD能力1 Xie C,Cai H,Li J,et al.CCMB:A Large-scale Chinese Cross-modal BenchmarkC/Proceedings of the 31st ACM International Conference on Multimedia.2023:4219-4227.360多模态大模型探索qStage II初版多轮对话效果 5-18-2023360多模态大模型探索qStage II初版多轮对话效果 5-18-2023User详细描述这张图片。SEEChat这张照片显示了一名男子站在一辆出租
24、车前,出租车停在路边,窗外是一栋高楼和街道。背景是一栋高楼和街道,树木和路灯照亮了城市。图像中的人穿着黑色衬衫和白色裤子,戴着黑色帽子。图像中的树木和路灯照亮了城市,背景中的高楼和街道。User这是白天还是晚上?SEEChat这张照片是在夜晚拍摄的,所以背景中的高楼和街道被树木和路灯照亮,出租车停在路边。这是一张城市夜景的照片,可以让人感受到城市的喧嚣和繁忙。User出租车是什么颜色的?SEEChat出租车是黄色的。User站在前面的是男人还是女人?SEEChat站在前面的是男人。User图片里路灯是什么颜色的?SEEChat图像中的路灯是黄色的。360多模态大模型探索qStage II初版多
25、轮对话效果 5-18-2023User详细描述这张图片。SEEChat这张图片展示了一个街头市场,人们站在一个货架前,手里拿着各种商品。货架上堆满了各种商品,包括蜡烛、糖果、咖啡和茶。背景是一栋建筑,屋顶上有一个遮阳伞。图片中的人穿着衣服,看起来很高兴,手里拿着商品。User天气怎么样?SEEChat这张图片的日期和时间未知。从图片的背景来看,可能是一个阳光明媚的天气,遮阳伞的阴影覆盖在建筑上。User有几个人?SEEChat根据图片中人的数量,很难确定一共有几个人。User房子是什么颜色的?SEEChat房子的颜色是白色的,可能是奶油色或浅黄色。User什么季节?SEEChat这张图片很难准
26、确地推断是哪个季节。User根据人们穿的衣服推测是哪个季节。SEEChat可以看出人们穿着夏季服装,比如短袖衬衫和短裤。在这种情况下,可能正处于夏季或炎热季节。User有人在看报纸吗?SEEChat图片中的人似乎正在看报纸,但我没有注意到他们是否在阅读。360多模态大模型探索 实验探索模型LLMsQWen2Llama3Vicuna1.5ChatglmVision encoderSiglipCLIP-VitDFN高分辨率策略滑动窗口高分辨率vision encoderConnectorMLPPerceiver resamplerCNN数据开源数据Laion,Zero等中英文原生数据Recaption数据General VQA,OCR,Counting,Detection等内部数据360多模态大模型探索https:/ truthprediction by 360VLground truthprediction by 360VL 背景 图文多模态大模型 360多模态大模型探索 业务落地实践1234360VL业务落地实践 360智能硬件搭载多个AI feature儿童手表拍照学英文,小朋友随身的英文老师公测评分9.1360VL业务落地实践 图像标签化基于360VL多模态模