当前位置:首页 > 报告详情

2020年终大会-自然语言处理:6-2.pdf

上传人: li 编号:29871 2020-12-01 34页 3.54MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里巴巴集团在多语言翻译领域的最新进展和技术实践。阿里巴巴达摩院提出了一种基于多语言的神经机器翻译(MNMT)架构,旨在用一个模型翻译所有语言对,从而降低了训练和维护成本。文章指出,MNMT的优点包括模型紧凑、知识共享,但面临数据收集和清洗、模型设计和性能、算法挑战等问题。为解决这些问题,研究者们进行了多项技术探索,如改进MNMT架构、基于迭代修复的合成数据增强、预训练模型集成、加速策略等。在实验部分,研究者们展示了这些技术在WMT等基准数据集上的成果,证明了MNMT在零样本翻译等任务上的优势。此外,文章还介绍了在阿里巴巴内部应用MNMT的情况,如支持214种语言的电子商务翻译,以及未来研究方向。
"多语言翻译模型的探索与实践" "如何实现跨语言知识传递与零样本翻译?" "阿里巴巴的多语言翻译应用与挑战"
客服
商务合作
小程序
服务号
折叠