《基于 Glancing Transformer 的并行文本生成技术-封江涛.pdf》由会员分享,可在线阅读,更多相关《基于 Glancing Transformer 的并行文本生成技术-封江涛.pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、并本成的原理与实践封江涛字节跳动AI Lab研究员2.为什么要探索并本成3.并本成的研究发展4.Glancing Transformer为并成建模词之间的依赖关系5.并成的应前景1.什么是并本成Part1:什么是并行文本生成什么是并行文本生成本成任务标题生成Headline Generation文本摘要Text SummarizationYang Qian also became the third Chinese female rifle player to win the first Olympic gold.机器翻译Machine Translation编码器编码器-解码器框架解码器框架
2、深度学习时代的本成模型般都使编码器-解码器的框架EncoderDecoder输入输出编码器编码器-解码器框架解码器框架根据不同的解码式可以分为:左向右的本成(autoregressive)并本成(non-autoregressive)EncoderDecoder输入输出自左向右or并行编码器编码器-解码器框架解码器框架回归模型采左向右的式按顺序逐词成本EncoderDecoder多很树alotofalotoftrees自回归文本生成模型自回归文本生成模型前常的本成模型使左向右的成式TransformerLSTM编码器编码器-解码器框架解码器框架回归模型采并的式同时成本EncoderDecode
3、r多很树alotoftreesPart2:为什么要探索并行文本生成为什么要探索并行文本生成并行解码速度更快并行解码速度更快GPU可以同时并执多个计算并解码的速度左向右解码的速度更快同时进行计算SPSPSPSPGPUDecoderalotoftree并行生成是否在生成质量上可以取得显著优势?并行生成是否在生成质量上可以取得显著优势?没有确定的答案并成的潜在优势左向右的解码每次只使左边的信息进局部的预测,但是每步意义明确并解码需要同时确定所有的词,但是可以同时利左右两边的上下信息并行生成是否在生成质量上可以取得显著优势?并行生成是否在生成质量上可以取得显著优势?发展的眼光看问题Aim for th
4、e highest机器翻译的发展历程机器翻译的发展历程Source credit:Christopher D.Manning机器翻译的发展历程机器翻译的发展历程在深度学习时代,自回归模型一直都是主要研究对象,但对于并行生成的研究相对欠缺自左向右的神经网络机器翻译经过不断地改进后才显著超越统计机器翻译并行生成是否在生成质量上可以取得显著优势?并行生成是否在生成质量上可以取得显著优势?前途是光明的!Part3:并行文本生成的研究发展并行文本生成的研究发展基础的并行生成模型基础的并行生成模型Gu J,Bradbury J,Xiong C,et al.Non-Autoregressive Neural
5、 Machine Translation.ICLR2018.模型结构:Transformer的编码器与解码器输出长度:在解码前先预测输出长度解码器输入:待解码词的初步表示模型结构对比模型结构对比并行生成模型的输出长度并行生成模型的输出长度1.在解码之前先预测度可以预测多种度下的输出结果2.预先设定最度需要去除解码结果中多余的部分很多树a lot of treesmany treesmany many treesmany trees并行生成模型的解码器输入并行生成模型的解码器输入1.复制编码器的表示到解码器2.直接使统的占位符并行生成模型和自回归模型的区别并行生成模型和自回归模型的区别自回归模型
6、并行生成模型解码器输入之前的部分输出序列来自编码器上下文信息单向的双向的输出长度输出作为终止先预测长度或指定最大长度并行文本生成的挑战并行文本生成的挑战同个输可以有多个不同输出并成会出现词不致的问题很多树a lot of treesmany trees很多树a great of treesgreat manylot of引入隐变量引入隐变量可能是解码器输入不够好预测额外的隐变量来帮助模型建模输出之间的关系-fertility,FlowSeq,PNAT etc.隐变量的设计存在困难-简单的隐变量,性能较弱-复杂的隐变量,难以预测并且预测速度慢迭代式解码迭代式解码Iter 1 a of trees