《1-4 预训练语言模型知识继承.pdf》由会员分享,可在线阅读,更多相关《1-4 预训练语言模型知识继承.pdf(51页珍藏版)》请在三个皮匠报告上搜索。
1、预训练语言模型知识继承秦禹嘉 清华大学 博士研究生|01预训练模型趋势02基于参数复用的预训练加速03基于知识蒸馏的预训练加速04总结与展望目录CONTENT|个人介绍|清华大学计算机系 直博二年级 秦禹嘉本科毕业于清华大学电子工程系研究方向:预训练语言模型|01预训练模型趋势预训练模型趋势|预训练(Pre-training)+下游任务微调(Fine-tuning)成为 NLP 任务的基本范式下游任务带标注数据测试数据微调Fine-tuning模型Model预训练Pre-training规模标注语料预训练模型趋势|尽管在探索各种预训练技术和模型架构方面做出了巨大的努力,研究人员发现,简单地扩大
2、模型容量、数据大小和训练时间可以显著提升模型性能ELMoULMFiTBERTTransformerGPTBidirectional LMGPT-2Larger modelMore dataGroverDefenseERNIE(Tsinghua)KnowBertSentiLRKEPLERLIBERTERNIE(Baidu)BERT-wwmMacBERT+KnowledgeVideoBERTCBTViLBERTVisualBERTB2T2Unicoder-VLLXMERTVL-BERTUNITERCross-modalXLNetMASSUniLMXLMUdifyUnicoderRoBERTaPer
3、mutation LMTransformer-XLMore data+GenerationLonger timeRemove NSPMore dataCross-lingualMT-DNNMulti-taskMT-DN!#Knowledge DistillationSpanBERTSpan predictionRemove NSPChineseMultiFiTMulti-lingualSemi-supervised Sequence Learningcontext2VecPre-trained seq2seqSpecific Domain BioBERTSciBERTClinicalBERTS
4、toryGPTGPT-3预训练模型趋势|然而更多的模型参数也意味着更昂贵的计算资源、训练成本OrganizationModelParameterDataTime2018.6OpenAIGPT110M4GB3 Day2018.10GoogleBERT330M16GB50 Day2019.2OpenAIGPT-21.5B40GB200 Day2019.7FacebookRoBERTa330M160GB3 Year2019.10GoogleT511B800GB66 Year2020.6OpenAIGPT-3175B560GB90 Year研究问题|现有的 PLM 通常是从零开始单独训练的,而忽略了许
5、多已训练的可用模型问题:如何利用已有的 PLM 辅助训练更大的 PLM?考虑到人类可以利用前人总结的知识来学习新任务;同样我们可以让大模型复用(继承)已有小模型中的隐式知识,从而加速大模型的训练预训练语言模型知识继承框架|为减少预训练计算消耗,我们提出知识继承框架,充分利用现有小模型消耗的算力继承小模型能力自主知识学习大模型小模型实力更强的大模型1.基于知识蒸馏的方法2.基于参数复用的方法|02基于知识蒸馏的知识继承基于知识蒸馏的知识继承|我们提出在大模型预训练初期,让现有小模型作为大模型的“老师”,将小模型的隐式知识“反向蒸馏”给大模型从而复用现有小模型的能力,减少大模型预训练计算消耗 11
6、 Knowledge Inheritance for Pre-trained Language Models.NAACL 2022(oral).Yujia Qin,Yankai Lin,Jing Yi,JiajieZhang,Xu Han,Zhengyan Zhang,Yusheng Su,Zhiyuan Liu,Peng Li,Maosong Sun,Jie Zhou继承小模型能力自主知识学习大模型小模型“反向蒸馏”实力更强的大模型基于知识蒸馏的知识继承|基于知识蒸馏的知识继承框架利用小模型!的知识训练大模型 知识继承系数#的动态调整(当学生超越老师,停止向老师“学习”)反向蒸馏自主学习基于