当前位置:首页 > 报告详情

3-1 一个图像到文本的生成模型以及在多模态领域的应用.pdf

上传人: 云闲 编号:102334 2021-01-01 19页 2.73MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了一种名为GIT的生成式图像到文本转换模型。GIT是一个具有生成能力的图像到文本转换器模型,采用了多头自注意力机制和前馈神经网络。该模型在图像/视频标题和问答任务上取得了新的最先进性能,并在场景文本识别方面也表现出色。GIT具有较小的模型大小和较少的训练数据,但性能更优。与现有的Flamingo和Coca模型相比,GIT在多个任务上表现更好。该模型在12个图像/视频标题和问答任务上取得了新的最先进性能,并在场景文本识别方面也表现出色。GIT预测的标题具有多样化的实体和概念,实现了开放词汇的视觉问答。
"GIT模型如何实现图像到文本的转换?" "GIT在哪些视觉语言任务上取得了突破性成果?" "如何利用GIT模型实现无词汇限制的图像分类?"
客服
商务合作
小程序
服务号
折叠