当前位置:首页 > 报告详情

讲习班-面向视觉场景的多模态机器翻译方法-中国科学院自动化研究所.pdf

上传人: 山海 编号:627108 2025-04-21 94页 10MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了面向视觉场景的多模态机器翻译方法。首先,作者介绍了任务背景和介绍,指出传统的文本机器翻译技术已难以满足当前日益丰富多样的翻译需求,特别是在图像和视频等多媒体模态方面。接着,作者详细介绍了图片辅助场景的多模态机器翻译、文本图像场景的多模态机器翻译、视频场景的多模态机器翻译等方法。其中,图片辅助场景的多模态机器翻译主要通过图像编码器、图像源语言编码器、源语言目标语言解码器等模块实现;文本图像场景的多模态机器翻译则主要关注字幕图像和文档图像的翻译;视频场景的多模态机器翻译则通过对比学习等方法实现。最后,作者对全文进行了总结,指出机器翻译在推理、问答、跨语言理解、多模态任务、跨地域/跨文化的语言理解等方面都有着广泛的应用价值。
图片辅助机器翻译如何利用视觉信息? 文本图像翻译如何解决模态鸿沟问题? 视频引导机器翻译如何处理模态不均衡?
客服
商务合作
小程序
服务号
折叠