《1知识驱动机器翻译研究和实践_aicon2021_杨浩_v4.pdf》由会员分享,可在线阅读,更多相关《1知识驱动机器翻译研究和实践_aicon2021_杨浩_v4.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、知识驱动机器翻译 -研究和实践杨浩华为 文本机器翻译实验室主任NMT的进展和挑战:数据驱动 VS 知识驱动知识NMT体系:开放知识,领域知识,模型知识,多模态知识知识NMT建模:约束生成+受限解码+知识对齐知识NMT实践:最佳领域翻译模型的三步走知识NMT思考:预训练,多语言,多模态-北京邮电大学国家重点实验室博士-微软亚洲研究院 明日之星-Baidu 个性化搜索负责人,Alibaba 技术总监-20+AAAI/ACL/CIKM/ICLR等自然语言处理顶会论文-10+已授权搜索推荐等相关专利-WMT/IWSLT/WAT等多项国际机器翻译比赛第一-华为文本机器翻译实验室主任个人简介机器翻译三个阶
2、段:(1)规则/实例机器翻译(2)统计机器翻译(3)神经网络机器翻译图片来源:TAUS1 机器翻译进展与挑战 三大趋势:(1)更大模型:双语NMT(2)更多语言:多语言NMT(3)更方便交互:多模态NMT机器翻译的趋势2014,20152016,2017Sutskever et al.(Seq2Seq)Bahdanau et al.(Attention)Wu et al.(Google-NMT)Gehring et al.(Cov-Seq2Seq)Vaswani et al.(Transformer)2019,2020Chen et al.(mT5)Chen et al.(M2M 100)Ch
3、en et al.(Mbart 50)2021Xingshan Zeng et al.(RealTranS)Ren et al.(SimulSpeech)Mansimov et al.(End-to-End Image NMT)双语 NMT多语言 NMT多模态 NMT双语 NMT多语言 NMT多模态 NMT How to configure s5700 arp .Source sentenceC如何如何怎么配置设置S5700S2700。arpap如何配置配置S5700S5700arparp。Target sentenceSeq2Seq 机器翻译模型Seq2Seq:(1)Encoder(2)De
4、coderAttention&Transformer“Attention is all you need”VS“Attention is not all you need”NMT的质量提升明显 Dataset WMT2014 EN-DEPerformance WMT2019 EN-DE大数据+大模型,效果提升明显NMT真的没有问题?https:/ WAT 2020 WMT 2020/2021 图像翻译,多对一翻译第一通用(News)英日等多个任务第一领域翻译(Domain)英德,英中等多项第一自动质量评估(QE)句子级,词汇级等任务第一自动译后编辑(APE)英中等多任务第一模型性能(Effic
5、iency)Docker 大小第一 IWSL 2020/2021研究论文诺亚语音语义实验室&文本机器翻译实验室 视频翻译英到中任务第一 离线语音翻译第一NMT的进展和挑战:数据驱动 VS 知识驱动知识NMT体系:开放知识,领域知识,模型知识,多模态知识知识NMT建模:约束生成+受限解码+知识对齐知识NMT实践:最佳领域翻译模型的三步走知识NMT思考:预训练,多语言,多模态知识分类方式体系https:/ graphPLMsEntity AlignmentSimilar SentenceKnowledge distillationRdrop layerImage translationVoice
6、translation全局知识:显式知识:知识图谱”实体-类型”对齐(KG NMT,Jiajun zhang,2018)全局知识隐式知识:利用PLMs的“知识对齐“,初始化Embedding等领域知识词级别受限解码,beam search增加Constraint(Grid Beam Search,Qun Liu,2017)领域知识句级别知识增强:搜索相似句,相似句的target sentence提升NMT(SEG NMT,Jiatao Gu,2017)SRC:传统的观念建议发现胃息肉即予切除,但常规切除所有息肉会加重患者经济负担。SE-Comb:传统的观念建议发现胃息肉即予切除,但常规切除所有