报告预览

1-4 预训练语言模型知识继承.pdf

编号：102318

PDF 51页 6.71MB 下载积分：VIP专享

下载报告请您先登录！

1-4 预训练语言模型知识继承.pdf

1、预训练语言模型知识继承秦禹嘉清华大学博士研究生|01预训练模型趋势02基于参数复用的预训练加速03基于知识蒸馏的预训练加速04总结与展望目录CONTENT|个人介绍|清华大学计算机系直博二年级秦禹嘉本科毕业于清华大学电子工程系研究方向：预训练语言模型|01预训练模型趋势预训练模型趋势|预训练（Pre-training）+下游任务微调（Fine-tuning）成为 NLP 任务的基本范式下游任务带标注数据测试数据微调Fine-tuning模型Model预训练Pre-training规模标注语料预训练模型趋势|尽管在探索各种预训练技术和模型架构方面做出了巨大的努力，研究人员发现，简单地扩大

2、模型容量、数据大小和训练时间可以显著提升模型性能ELMoULMFiTBERTTransformerGPTBidirectional LMGPT-2Larger modelMore dataGroverDefenseERNIE(Tsinghua)KnowBertSentiLRKEPLERLIBERTERNIE(Baidu)BERT-wwmMacBERT+KnowledgeVideoBERTCBTViLBERTVisualBERTB2T2Unicoder-VLLXMERTVL-BERTUNITERCross-modalXLNetMASSUniLMXLMUdifyUnicoderRoBERTaPer

3、mutation LMTransformer-XLMore data+GenerationLonger timeRemove NSPMore dataCross-lingualMT-DNNMulti-taskMT-DN!#Knowledge DistillationSpanBERTSpan predictionRemove NSPChineseMultiFiTMulti-lingualSemi-supervised Sequence Learningcontext2VecPre-trained seq2seqSpecific Domain BioBERTSciBERTClinicalBERTS

4、toryGPTGPT-3预训练模型趋势|然而更多的模型参数也意味着更昂贵的计算资源、训练成本OrganizationModelParameterDataTime2018.6OpenAIGPT110M4GB3 Day2018.10GoogleBERT330M16GB50 Day2019.2OpenAIGPT-21.5B40GB200 Day2019.7FacebookRoBERTa330M160GB3 Year2019.10GoogleT511B800GB66 Year2020.6OpenAIGPT-3175B560GB90 Year研究问题|现有的 PLM 通常是从零开始单独训练的，而忽略了许

5、多已训练的可用模型问题：如何利用已有的 PLM 辅助训练更大的 PLM？考虑到人类可以利用前人总结的知识来学习新任务；同样我们可以让大模型复用（继承）已有小模型中的隐式知识，从而加速大模型的训练预训练语言模型知识继承框架|为减少预训练计算消耗，我们提出知识继承框架，充分利用现有小模型消耗的算力继承小模型能力自主知识学习大模型小模型实力更强的大模型1.基于知识蒸馏的方法2.基于参数复用的方法|02基于知识蒸馏的知识继承基于知识蒸馏的知识继承|我们提出在大模型预训练初期，让现有小模型作为大模型的“老师”，将小模型的隐式知识“反向蒸馏”给大模型从而复用现有小模型的能力，减少大模型预训练计算消耗 11

6、 Knowledge Inheritance for Pre-trained Language Models.NAACL 2022(oral).Yujia Qin,Yankai Lin,Jing Yi,JiajieZhang,Xu Han,Zhengyan Zhang,Yusheng Su,Zhiyuan Liu,Peng Li,Maosong Sun,Jie Zhou继承小模型能力自主知识学习大模型小模型“反向蒸馏”实力更强的大模型基于知识蒸馏的知识继承|基于知识蒸馏的知识继承框架利用小模型!的知识训练大模型知识继承系数#的动态调整（当学生超越老师，停止向老师“学习”）反向蒸馏自主学习基于

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（1-4 预训练语言模型知识继承.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。