《达摩院:2022连续语义增强机器翻译及魔搭社区应用实践(53页).pdf》由会员分享,可在线阅读,更多相关《达摩院:2022连续语义增强机器翻译及魔搭社区应用实践(53页).pdf(53页珍藏版)》请在三个皮匠报告上搜索。
1、连续语义增强机器翻译及魔搭社区应用实践连续语义增强机器翻译及魔搭社区应用实践达摩院-机器智能技术实验室魏相鹏xiangpeng.wxpalibaba-2基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)问题:神经机器翻译技术严重依赖于大规模、高质量的双语平行语料问题:神经机器翻译技术严重依赖于大规模、高质量的双语平行语料整体趋势整体趋势:翻译质量随语料规模增加逐渐上升挑战:在大量的实际应用场景中,平行语料的规模非常有限,人工生产成本高、生产周期长英俄CCMatrix
2、平行语料领域分布基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人
3、工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神
4、经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:对抗样本(Adversarial Examples),概念来源于生成对抗网络,通过对原始句子进行同义词替换、词调序、随机删词等操作,以提升翻译模型对源文扰动的鲁棒性。Wang et al.2018.SwitchOut:an efficient data augmentation algorithm for neural machine translation.基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是
5、在离散的自然语言空间中产生增强样本)存在局限性:基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是在离散的自然语言空间中产生增强样本)存在局限性:数据多样性差容易发生语义偏移真实数据和伪数据之间的差异导致模型有偏基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)回归本质:从自然语言的固有特性来分析为什么离散式数据增强技术容易快速遇到性能瓶颈离散式数据增强无法覆盖(全部的、分布在整个自然语言空间的)这种即时选择的行为,从而使得机器的求解范围总是限制在
6、局部。Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSemanticEncoder基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)技术方案技术方案突破离散空间,构