当前位置:首页 > 报告详情

复旦大学:从多模态联合预训练到多模态语模型架构训练评测趋势概览(101页).pdf

上传人: AG 编号:608635 2023-12-03 101页 19.84MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了从多模态联合预训练到多模态大语言模型的发展过程,包括架构、训练、评测和趋势。文章首先回顾了ChatGPT之前的视觉语言预训练,然后介绍了大视觉语言模型的架构和训练,接着讨论了大视觉语言模型的评测,最后探讨了大语言模型支持的具身智能(视觉导航)。文章引用了多个数据集和模型参数规模,如MSCOCO、Flickr30K、VQA2.0、CLEVR、Visual Genome、VCR等,以及BLIP、OFA、CoCa、BeiT-3、GIT、PaLi等模型的参数规模。文章还提到了一些新的评测基准,如MME、MMBench、LVLM-eHub、ReForm-Eval等,以及一些新的模型,如LLaVA、BLIP-2、Shikra、Kosmos2、Next-GPT等。
视觉语言模型如何处理多模态数据? 大型视觉语言模型如何进行训练和评测? 视觉语言模型在实际应用中面临哪些挑战?
客服
商务合作
小程序
服务号
折叠