《1-5 预训练语言模型压缩及美团落地实践.pdf》由会员分享,可在线阅读,更多相关《1-5 预训练语言模型压缩及美团落地实践.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、1|2022年7月|预训练语言模型压缩及美团落地实践美团 算法专家 杨扬2|大模型落地应用挑战 面向高压缩比需求的模型压缩方法及应用 面向语义匹配场景的双塔蒸馏方法及应用目录3|大模型落地应用挑战4|预训练语言模型已经成为NLP任务基石全球范围内,预训练模型的参数规模不断被刷新,模型效果持续提升。5|美团NLP场景概览内容社区搜索、推荐、广告查询理解、召排、推荐理由智能客服/助理商家助手售前、售中、售后客服生产、审核、治理、分发企业办公IT、财务、HR、行政等员工服务咨询服务、简历理解美团/点评/频道内搜索,点评feeds,猜你喜欢,到店广告外卖、优选、住宿等180+客服机器人外卖、闪购、酒店
2、、医美、悠闲娱乐问大家,美团/点评评论,笔记,医美案例,团单7|一次搜索背后的NLP技术8|一次搜索背后的NLP技术意图识别成分分析类目预测9|一次搜索背后的NLP技术意图识别成分分析类目预测信息抽取情感分析语义匹配10|一次搜索背后的NLP技术意图识别成分分析类目预测信息抽取情感分析语义匹配11|一次搜索背后的NLP技术意图识别成分分析类目预测信息抽取情感分析语义匹配FAQ匹配KBQA文本摘要12|一次搜索背后的NLP技术意图识别成分分析类目预测信息抽取情感分析语义匹配FAQ匹配KBQA文本摘要13|预训练模型已经在美团广泛应用美团预训练平台多尺寸多结构多任务多模态业务场景通用预训练客服语料
3、搜索日志电商语料评论/笔记客服推荐广告搜索配送外卖领域预训练预训练模型下游任务单句分类句间关系序列标注阅读理解文本生成任务精调基于预训练技术,为美团开发者提供一站式自然语言处理解决方案,上线以来,支持美团60+业务部门2万+预训练实验。14|预训练模型落地“最后一公里”大模型推理时间长,上线部署困难26s11s160ms32msGLM-10BBert-LargeBert-BaseBert-Medium不同模型推理耗时/s搜索相关性场景,上线标准40ms 增加线上GPU资源,可扩展性差 模型压缩,实现模型效果和推理性能的平衡15|知识蒸馏(Knowledge Distillation)大模型知识
4、迁移到小模型 TinyBERT,DistillBERT,MiniLM,etc.模型剪枝(Model Pruning)基于既定规则裁剪冗余参数 LayerDrop,DynaBERT,Block Pruning,CoFi Pruning,etc.模型量化(Model Quantization)大模型权重和激活的表示精度降低 QBERT,TenaryBERT,BinaryBERT,etc.预训练模型压缩技术16|面向高压缩比需求的模型压缩方法及应用17|高压缩比下的预训练模型压缩语言模型蒸馏在压缩比例较大时候难以达到预期效果,单步蒸馏效果较差,引入助教模型可以改进压缩效果。蒸馏蒸馏Mirzadeh,
5、Seyed Iman,et al.Improved knowledge distillation via teacher assistant.AAAI 2020.0.750.80.850.90.952416128642BERT-large蒸馏效果(MRPC)学生教师19|AutoDisc自动助教寻优的预训练模型压缩方法自动搜索最优助教最优助教:以尽量少的参数最大限度地保留教师性能手动尝试最优助教费时费力,自动搜索最优助教定义优化目标-tradeoff,用于评估助教优劣,且与学生表现正相关,-tradeoff只需要知道助教表现和助教大小就可以估计。以12 层BERT模型为Teacher,使用不同
6、大小的助教,蒸馏1层BERT模型20|AutoDisc自动助教寻优的预训练模型压缩方法Chen Zhang,et al.AUTODISC:Automatic Distillation Schedule for Large Language Model Compression.助教训练优化提出助教参数共享和优化下采样算法,从而不用枚举训练每个候选助教,减少训练成本。助教候选1助教候选2助教候选3助教候选4助教候选1助教候选2助教候选3助教候选4助教候选1助教候选3助教候选4参数共享优化下采样助教候选3选择最优助教候选集优化算法选择算法通过-Tradeoff来选择一个规模小但效果尽可能优秀的助教,