达摩院:2022连续语义增强机器翻译及魔搭社区应用实践(53页).pdf

编号:109091 PDF  PPTX 53页 17.85MB 下载积分:VIP专享
下载报告请您先登录!

达摩院:2022连续语义增强机器翻译及魔搭社区应用实践(53页).pdf

1、连续语义增强机器翻译及魔搭社区应用实践连续语义增强机器翻译及魔搭社区应用实践达摩院-机器智能技术实验室魏相鹏xiangpeng.wxpalibaba-2基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)问题:神经机器翻译技术严重依赖于大规模、高质量的双语平行语料问题:神经机器翻译技术严重依赖于大规模、高质量的双语平行语料整体趋势整体趋势:翻译质量随语料规模增加逐渐上升挑战:在大量的实际应用场景中,平行语料的规模非常有限,人工生产成本高、生产周期长英俄CCMatrix

2、平行语料领域分布基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人

3、工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神

4、经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:对抗样本(Adversarial Examples),概念来源于生成对抗网络,通过对原始句子进行同义词替换、词调序、随机删词等操作,以提升翻译模型对源文扰动的鲁棒性。Wang et al.2018.SwitchOut:an efficient data augmentation algorithm for neural machine translation.基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是

5、在离散的自然语言空间中产生增强样本)存在局限性:基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是在离散的自然语言空间中产生增强样本)存在局限性:数据多样性差容易发生语义偏移真实数据和伪数据之间的差异导致模型有偏基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)回归本质:从自然语言的固有特性来分析为什么离散式数据增强技术容易快速遇到性能瓶颈离散式数据增强无法覆盖(全部的、分布在整个自然语言空间的)这种即时选择的行为,从而使得机器的求解范围总是限制在

6、局部。Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSemanticEncoder基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)技术方案技术方案突破离散空间,构

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(达摩院:2022连续语义增强机器翻译及魔搭社区应用实践(53页).pdf)为本站 (彩旗) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠