《复旦大学:从多模态联合预训练到多模态语模型架构训练评测趋势概览(101页).pdf》由会员分享,可在线阅读,更多相关《复旦大学:从多模态联合预训练到多模态语模型架构训练评测趋势概览(101页).pdf(101页珍藏版)》请在三个皮匠报告上搜索。
1、从多模态联合预训练到多模态语模型:架构、训练、评测、趋势概览魏忠钰(魏忠钰(Wei,Zhongyu)复旦大学数据智能与社会计算实验室(Fudan DISC)自然语言处理组(Fudan-NLP)2023年1203中国中信息学会前沿技术讲习班合作者李泽君周呈星王晔杜梦吴斌浩张霁雯罗瑞璞陈汉夫录录 ChatGPT之前的视觉语预训练 视觉语模型的架构和训练 视觉语模型的评测 视觉语模型的能扩充 语模型撑的具智能(视觉导航)跨视觉跨视觉语模态的研究场景语模态的研究场景字短语句段落像素区域图相册匹配成推理语言视觉导航跨模态语义表示跨模态语义对任务模块 给定张图,从句集合中检索语义相关的句。给定个句,从图集
2、合中检索语义相关的图。评测指标:R1(Recall1),R5,R10Image-trainImage-devImage-testcaptionMSCOCO113,2875,0005,0005 for eachimageFlickr30K29,0001,0001,000图像本的语义匹配图像本的语义匹配视觉指代理解(视觉指代理解(VisualVisual ReferringReferring ExpressionExpression)给定个语表达,确定图中指代的标物体。重叠例Intersection over Union(IoU):真实和预测的物体框。如果 IoU 超过 0.5,被认为真,否则为假
3、。图数标物体数本表达平均度RefCOCO50,00019,994142,2093.61RefCOCO+49,85619,992141,45643.53RefCOCOg26,71154,82285,4748.43基于视觉的本成基于视觉的本成 图描述成 相册故事成 图对话成 评测指标:BLUE,ROUGE,MEOTER,SPICE数据集图个数描述个数MSCOCO300,000+5 per imageFlickr30K30,000158,000 in totalFlickr8K8,0005 per imageVisual Genome108,000+1,445,322 in totalInstagr
4、am10,0005 per imageFlikrStyle10K10,000Romantic,humorous,factual视觉语问答视觉语问答(Visual Question(Visual Question AnseringAnsering)数据集合图个数问题个数数据集特点VQA2.0(2015)204,721(coco)1,105,90410 annotated answers:yes/no,number,otherCLEVR(2016)100,000864,968Synthetic;Reason about relationships between objects of differ
5、ent shapes,colors and sizesVisualGenome(2016)108,077(coco,flickr)1,445,322Region based qa-pair and caption,scene graph,object detection with annotated attributeGQA(2019)113,018(coco,flickr,visual genome)22,669,678Unbalanced data;scene graph based;full answer;word-object mapping 任务:给定张图、些标物体、个问题、四个答案
6、,(1)让模型选择哪个描述与图是致的,(2)让模型选择输出该答案的解释。数据集 VCR:从110k电影段中,抽取的290K多选QA.视觉常识推理(视觉常识推理(Visual Commonsense ReasoningVisual Commonsense Reasoning)From recognition to cognition:Visual commonsense reasoning,ICCV.2019.带时序的视觉常识推理(带时序的视觉常识推理(Visual COMETVisual COMET)给定张图和当前的某个事件描述以及地点,成该事件前的事件,当前事件的原因,后续时间的事件。Vis