1、多模态大模型技术演进及研究框架多模态大模型技术演进及研究框架证券研究报告证券研究报告 行业深度报告行业深度报告发布日期:2023年3月18日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师:于芳博分析师:于芳博SAC编号:S1440522030001分析师:金戈分析师:金戈SAC编号:S1440517110001SFC 中央编号:BPD352分析师:分析师:阎贵成阎贵成SAC编号:S1440518040002SFC 中央编号:BN
2、S315 核心观点:Transformer颠覆了传统深度学习模型,但仅限于文本,ViT打通了Transformer与CV领域的壁垒,BEiT模型将生成式预训练引入CV领域,基于ViT的多模态模型涌现。多模态已经在多个领域中得到广泛应用,如虚拟人、智能座舱、机器人等,各式应用持续推动多模态模型的演进。近期OpenAI发布能处理图像和文本的多模态模型GPT-4,引发关注,随着底座模型推出,上层应用预计将会涌现,催生巨大商业市场,我们建议关注。ViT打通了打通了Transformer与与CV领域的壁垒领域的壁垒,BEiT模型将生成式预训练引入模型将生成式预训练引入CV领域领域。Transformer
3、的出现颠覆传统深度学习模型,BERT等证明了Transformer在NLP领域的优秀表现。然而传统的Transformer模型只适用于单模态文本,ViT模型将patch embedding引入Transformer,打通了Transformer与CV领域的壁垒。以ViT为基础的多模态模型如雨后春笋般涌现,以文图多模态为主,视频领域也产生了许多基于ViT的模型。生成式预训练被证明在自然语言处理领域有着广泛的应用,BEiT模型将生成式预训练引入CV领域,实现了CV领域大规模自监督预训练。多模态发展经历五个阶段多模态发展经历五个阶段,包括行为时代、计算时代、交互时代、深度学习时代和大模型时代。多模态
4、交互多模态交互、感知感知、内容分发等应用已涉及多个内容分发等应用已涉及多个方面方面,包括多模态检索包括多模态检索、虚拟人虚拟人、智能人智能人、智能座舱智能座舱、语音助手等语音助手等。扩散模型等和多模态模型的结合催生了文生图任务的火爆。各式多模态场景各式多模态场景下的应用持续推动多模态模型的演进下的应用持续推动多模态模型的演进。多模态预训练大模型核心要素包括:对图文编码多模态预训练大模型核心要素包括:对图文编码、设置学习目标设置学习目标、模型结构模型结构、模态融合等模态融合等。多模态预训练模型首先要将图文进行编码,文字端有成熟的BERT等模型进行处理,图像特征基于Patch提取更加高效。学习目标
5、是多模态预训练大模型重要一环,包括图文对比、编码语言模型、图文匹配等,模型可以使用不同的学习目标产生不同学习效果。多模态预训练大模型结果主要分为encoder-only和encoder-decoder,常见的是encoder-only模型,用于图文检索等任务,而后者适用于生成任务。根据模态融合方式不同,又可以分为fusion encoder和dual encoder模型,前者通过混合方式对模态进行处理,能够学习到不同模态之间的隐藏的知识,适合推理,后者分别对模态进行处理,适合检索等任务。多模态预训练大模型未来将更加统一多模态预训练大模型未来将更加统一。虽然BEiT-3等统一模型将各种任务统一起
6、来,但实际上仅仅是将几个任务的模块累加起来得到的,并非真正意义上的“统一”。未来,以微软发布的KOSMOS-1和谷歌发布的PaLM-E,将不同模态统一编码为文本模式或者使用通才模型统一下游任务使多模态预训练大模型走向统一。多模态大模型正处于蓬勃发展阶段多模态大模型正处于蓬勃发展阶段,随着底座模型的推出随着底座模型的推出,上层应用预计将会涌现上层应用预计将会涌现,催生巨大商业市场催生巨大商业市场,我们建议关注我们建议关注,尤其关注当前多模态大尤其关注当前多模态大模型的推出情况模型的推出情况。核心观点 目录一、多模态预训练概述一、多模态预训练概述二、多模态预训练关键要素二、多模态预训练关键要素三、