当前位置:首页 > 报告详情

1-4 预训练语言模型知识继承.pdf

上传人: 云闲 编号:102318 2021-01-01 51页 6.71MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文提出了一种名为知识继承的框架,用于加速预训练语言模型的训练和提升其性能。该框架充分利用现有小模型的隐式知识,通过知识蒸馏和参数复用两种方法实现。知识蒸馏方法让现有小模型作为大模型的老师,将小模型的知识“反向蒸馏”给大模型,从而复用小模型的能力。参数复用方法则通过复用小模型的参数,初始化大模型参数,利用大模型的高收敛效率。实验证明,知识继承框架下训练的大模型预训练收敛速度提升37.5%,并在下游任务上显著超越传统方法。此外,文章还提出了一种名为ELLE的框架,支持预训练语言模型对新的数据进行高效的持续预训练,同时防止旧知识的遗忘。实验结果显示,ELLE框架能够有效地实现模型参数的横向和纵向增长,并防止旧知识遗忘,为新的知识学习做准备。
"如何加速预训练语言模型的发展?" 哪种方法更胜一筹?" 如何让模型不断学习新知识?"
客服
商务合作
小程序
服务号
折叠