前沿趋势论坛-机器翻译视角下的多语言大模型-南京大学.pdf

编号:627082 PDF 46页 5.89MB 下载积分:VIP专享
下载报告请您先登录!

前沿趋势论坛-机器翻译视角下的多语言大模型-南京大学.pdf

1、机器翻译视角下的多语言大模型黄书剑南京大学计算机学院0机器翻译的研究范式正在转变神经机器翻译:主要从平行数据中学习翻译知识大语言模型:主要从单语数据中学习通用知识(包含翻译知识)语言模型单语数据预训练指令微调In-context Learning平行数据训练平行数据翻译模型1机器翻译的研究范式正在转变神经机器翻译:主要从平行数据中学习翻译知识大语言模型:主要从单语数据中学习通用知识(包含翻译知识)语言模型单语数据预训练指令微调In-context Learning平行数据训练平行数据翻译模型2提升LLM:语言转换语言对齐提升MT:翻译知识LLM向MT传递翻译知识3研究动机(不同范式之间的比较)

2、大语言模型中包含大量的长尾知识这些知识可能很难包含在相对有限的平行数据中如果能利用这些知识,可能可以更好提升翻译能力大语言模型参数规模巨大,解码开销高650M3.3B v.s.7B130B4语言模型单语数据预训练指令微调In-context Learning平行数据原文:司美格鲁肽是一种用于体重管理的药物。百度翻译:Smegglutide is a medication used for weight management.ChatGPT:Semaglutide is a medication used for weight management.ParroT-7B:Simeprevir is

3、 a medication used for managing weight.传统知识迁移方法数据增强/知识蒸馏(SeqKD)教师模型(Teacher)翻译源端单语数据,生成伪平行数据学生模型(Student)在生成的伪数据上学习5司美格鲁肽是一种用于体重管理的药物。天空很蓝大型语言模型能力很强Semaglutide is a medication The sky is blueLLMs have great abilities.教师模型学生模型传统方案的问题:无选择性简单的在所有数据上微调翻译模型,会导致训练开销太高易产生对原有知识的灾难性遗忘-蒸馏过程应该有选择性,仅迁移翻译模型未知的知识

4、仅学习翻译模型犯错的句子仅学习翻译模型犯错的词6司美格鲁肽是一种用于体重管理的药物。天空很蓝。大型语言模型能力很强。Semaglutide is a medication for The sky is blue.LLMs have great abilities.教师模型学生模型传统方案的问题:无外推能力完全依赖语言现象在单语数据中的显式出现无法外推到新的上下文无法外推到其他的词-蒸馏过程应该具备外推能力(举一反三)在不同的上下文下学习同一个翻译知识从当前翻译知识扩展到相关的新翻译知识7司美格鲁肽是一种用于体重管理的药物。请问各位知道哪里可以买到司美格鲁肽的口服药吗!外推到新的上下文司美格鲁肽

5、二甲双胍、奥利司他外推到新的词MT-Patcher:基于LLM的高效知识迁移框架识别小模型中的翻译错误,并进行修正(Feedback/Post Editing)可以针对性地选择错误的知识根据现有错误词对进行联想(Word Analogy)可以外推到更多相关的知识生成包含目标词对的平行数据(Parallel Data Synthesis)可以外推到更多上下文充分发挥大语言模型的能力,充分利用原有模型的现有能力!8Li et al.,MT-PATCHER:Selective and Extendable Knowledge Distillation from Large Language Mode

6、ls for Machine Translation.NAACL 2024.9反馈 类比 合成部分结果:化学物质翻译MT-Patcher 显著提升了对于新的上下文/词的翻译准确率反馈和错误修正 提升模型学习效果平行语料合成模型 提升已见过词+新上下文性能错误联想模型 提升未见过词性能23.124.459.641.160.842.682.343.484.263.21001000255075100125已见过物质名+新上下文新物质名StudentMT-Patcher(+PE)MT-Patcher(+PE+PDS)MT-Patcher(+PE+PDS+WA)SeqKDStudentMT-Patche

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(前沿趋势论坛-机器翻译视角下的多语言大模型-南京大学.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠