1、模型模型联动及落地刘佳祥 百度 资深研发程师|模型是提升效果的可靠途径参数量越来越Human效果也越来越好图1:参数趋势图图2:权威榜单 SuperGLUE 效果趋势图|随之来的问题是模型的落地困难、迭代周期久4千万参数模型15 亿模型(10亿级模型常规尺)15亿模型为例,模型落地成本就要翻 37 倍直接落地成本QPS045901351800.140.180.220.6591.13.31530100Model parameters(in billions)!速度慢随着模型规模的增,推理速度在迅速下降,实际落地价值,挑战更推理速度慢模型产价值需要考虑成本|模型模型联动|模型模型联动1.1 蒸馏的
2、基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|1.1 模型蒸馏的基本概念蒸馏(Knowledge Distillation)Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogit
3、s|1.1 模型蒸馏的基本概念蒸馏(Knowledge Distillation)Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogitsDistillationLoss|1.1 模型蒸馏的基本概念蒸馏(Knowledge Distillation)TeacherStudentDataLogitsLogitsDistillationLoss预训练迁移范式标注数据预训练模型任务数据集微调模型|1.1 模型蒸馏的基本概
4、念标注数据任务数据集预训练模型微调模型在微调阶段加Step1:微调模型得到教师Step2:教师指导模型蒸馏|1.1 模型蒸馏的基本概念标注数据任务数据集预训练模型微调模型在微调阶段加Step1:微调模型得到教师Step2:教师指导模型蒸馏优势:效果较好劣势:步骤多,每个数据集都要重复次蒸馏步骤|1.1 模型蒸馏的基本概念标注数据任务数据集预训练模型微调模型在预训练阶段加蒸馏1.预训练模型作为教师模型指导模型预训练优势:学模型应到下游任务时,需微调教师劣势:下游效果差于任务相关蒸馏|1.1 模型蒸馏的基本概念预训练+蒸馏=任务关蒸馏微调+蒸馏=任务相关蒸馏优势:学模型应到下游任务时,需微调教师劣
5、势:下游效果差于任务相关蒸馏优势:效果较好劣势:步骤多,每个数据集都要重复次蒸馏步骤|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|1.2 基于任务相关的蒸馏动机:将模型的能极致的传授给模型,可否将监督数据加进来?|1.2 基于任务相关的蒸馏动机:将模型的能极致的传授给模型,可否将监督数据加进来?微调+蒸馏=任务相关蒸馏优势:效果较好劣势:步骤多,每个数据集都要重复次蒸馏步骤|1.2 基于任务相关的蒸馏动机:将模型的能极致的传授给模型,可否将监督数据加进来?微调+蒸馏=任务相关蒸馏数据
6、量少|1.2 基于任务相关的蒸馏动机:将模型的能极致的传授给模型,可否将监督数据加进来?微调+蒸馏=任务相关蒸馏数据量少有没有办法完美的将规模监督数据加进来|1.2 基于任务相关的蒸馏动机:将模型的能极致的传授给模型,可否将监督数据加进来?|动机:将模型的能极致的传授给模型,可否将监督数据加进来?1.2 基于任务相关的蒸馏|动机:将模型的能极致的传授给模型,可否将监督数据加进来?1.2 基于任务相关的蒸馏|动机:将模型的能极致的传授给模型,可否将监督数据加进来?1.2 基于任务相关的蒸馏|实验结果1.2 基于任务相关的蒸馏|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断