当前位置:首页 > 报告详情

3-4 基于事件图结构的文本-视觉理解.pdf

上传人: 云闲 编号:102380 2021-01-01 33页 8.19MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了将事件知识融入视觉语言预训练的方法,以提高模型对事件结构的理解。作者提出了CLIP-Event模型,通过最优传输方法和事件描述示例进行结构化对齐,增强模型对事件结构的理解。实验表明,零样本事件提取和图像事件提取在多项下游任务中取得了显著成果。此外,文章还提出了一种新的图像-标题检索数据集VOANews,以及一种基于多媒体新闻事件问答的基准。实验结果表明,事件知识的加入能显著提升视觉语言预训练模型的性能,对于视觉常识推理等下游任务具有积极意义。
"图像-语言预训练如何融入事件知识?" "如何通过最优传输构建跨媒体结构?" "视觉事件提取在实际应用中的表现如何?"
客服
商务合作
小程序
服务号
折叠