1、1/95赵阳中国科学院自动化研究所多模态人工智能系统全国重点实验室面向视觉场景的多模态面向视觉场景的多模态机器翻译方法机器翻译方法2/95提提 纲纲1 任务背景和介绍2 图片辅助场景的多模态机器翻译3 文本图像场景的多模态机器翻译字幕图像场景文档图像场景4 视频场景的多模态机器翻译5 总结3/951.任务背景和介绍任务背景和介绍翻译引擎/系统源语言目标语言广泛应用国家与公共安全国民经济发展社会生活服务国际交流与合作 机器翻译常见的系统文本输入、文本输出4/951.任务背景和介绍任务背景和介绍随着技术进步,传统的文本机器翻译技术已难以完全满足当前日益丰富多样的翻译需求,特别是在图像和视频等多媒体
2、模态方面。很多场景下,用户需要以其他模态(图像、语音或者视频)与翻译系统交互。本次报告仅聚焦面向视觉场景的多模态机器翻译5/951.任务背景和介绍任务背景和介绍扫描文档视频字幕 视觉场景的多模态机器翻译系统需求广泛6/951.任务背景和介绍任务背景和介绍景点介绍街景路牌 视觉场景的多模态机器翻译系统需求广泛7/951.任务背景和介绍任务背景和介绍大量研究人员开始关注面向视觉场景的多模态机器翻译不同视觉场景的机器翻译有着不同的特点图片辅助场景文本图像场景视觉场景的多模态机器翻译视频场景字幕图像文档图像场景图像8/951.场景分类场景分类图片辅助场景文本图像场景视觉场景的多模态机器翻译视频场景字幕
3、图像文档图像场景图像场景文本和图片输入文本和图片输入图片起辅助/帮助作用文本输出图像输入图像里面嵌入一句话(字幕或场景)、一整个文档(文档)文本输出文本和视频输入视频起辅助/帮助作用文本输出特点9/951.背景知识背景知识 常见的图像编码器框架(Transformer类)ViT11 Dosovitskiy A.An image is worth 16x16 words:Transformers for image recognition at scaleJ.arXiv preprint arXiv:2010.11929,2020.1.将Transformer结构用于图像领域,图像切分为小块(p
4、atch),作为输入2.训练数据较多时,ViT效果比CNN好10/951.背景知识背景知识 常见的图像编码器框架(Transformer类)Swin Transformer11 Liu Z,Hu H,Lin Y,et al.Swin transformer v2:Scaling up capacity and resolutionC/Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2022:12009-12019.1.ViT中的patch过于粗粒度,细粒度感知的任务(识别文字等)
5、表现不佳2.Swin Transformer模仿CNN的机制,将自注意力的计算限制在局部窗口中,同时还允许跨窗口连接。11/951.背景知识背景知识 优缺点对比ViT在可扩展性、计算复杂度上较Swin Transformer优势;很多视觉-语言大模型(CLIP、Qwen-VL、LLaVA、Vary),使用ViT作为图像编码器,后续的模型也大多利用上述参数,实践中ViT更为常见。12/95提提 纲纲1 任务背景和介绍2 图片辅助场景的多模态机器翻译3 文本图像场景的多模态机器翻译字幕图像场景文档图像场景4 视频场景的多模态机器翻译5 总结13/95 任务定义2 2 图片辅助场景图片辅助场景图片引
6、导/辅助的机器翻译(Image-guided Machine Translation,IMT)是早期多模态机器翻译的主要任务形式。输入:源语言句子,一张与该句子相关的图片输出:目标语言译文。14/95 任务样例2 2 图片辅助场景图片辅助场景源句:The glasses are broken.相关图片:源句:The glasses are broken.目标句:玻璃杯玻璃杯碎了。输入IMT 模型输出目标句:眼镜眼镜碎了。文本翻译模型15/952 2 图片辅助场景图片辅助场景 应用场景1.跨国电商翻译16/952 2 图片辅助场景图片辅助场景 应用场景2.新闻内容翻译3.社交媒体内容翻译17/9