报告预览

1-6 大模型与小模型联动及落地.pdf

编号：102329

PDF 44页 9.53MB 下载积分：VIP专享

下载报告请您先登录！

1-6 大模型与小模型联动及落地.pdf

1、模型模型联动及落地刘佳祥百度资深研发程师|模型是提升效果的可靠途径参数量越来越Human效果也越来越好图1:参数趋势图图2:权威榜单 SuperGLUE 效果趋势图|随之来的问题是模型的落地困难、迭代周期久4千万参数模型15 亿模型（10亿级模型常规尺）15亿模型为例，模型落地成本就要翻 37 倍直接落地成本QPS045901351800.140.180.220.6591.13.31530100Model parameters(in billions)!速度慢随着模型规模的增，推理速度在迅速下降，实际落地价值，挑战更推理速度慢模型产价值需要考虑成本|模型模型联动|模型模型联动1.1 蒸馏的

2、基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|1.1 模型蒸馏的基本概念蒸馏（Knowledge Distillation）Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogit

3、s|1.1 模型蒸馏的基本概念蒸馏（Knowledge Distillation）Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogitsDistillationLoss|1.1 模型蒸馏的基本概念蒸馏（Knowledge Distillation）TeacherStudentDataLogitsLogitsDistillationLoss预训练迁移范式标注数据预训练模型任务数据集微调模型|1.1 模型蒸馏的基本概

4、念标注数据任务数据集预训练模型微调模型在微调阶段加Step1:微调模型得到教师Step2:教师指导模型蒸馏|1.1 模型蒸馏的基本概念标注数据任务数据集预训练模型微调模型在微调阶段加Step1:微调模型得到教师Step2:教师指导模型蒸馏优势：效果较好劣势：步骤多,每个数据集都要重复次蒸馏步骤|1.1 模型蒸馏的基本概念标注数据任务数据集预训练模型微调模型在预训练阶段加蒸馏1.预训练模型作为教师模型指导模型预训练优势：学模型应到下游任务时，需微调教师劣势：下游效果差于任务相关蒸馏|1.1 模型蒸馏的基本概念预训练+蒸馏=任务关蒸馏微调+蒸馏=任务相关蒸馏优势：学模型应到下游任务时，需微调教师劣

5、势：下游效果差于任务相关蒸馏优势：效果较好劣势：步骤多,每个数据集都要重复次蒸馏步骤|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|1.2 基于任务相关的蒸馏动机：将模型的能极致的传授给模型，可否将监督数据加进来？|1.2 基于任务相关的蒸馏动机：将模型的能极致的传授给模型，可否将监督数据加进来？微调+蒸馏=任务相关蒸馏优势：效果较好劣势：步骤多,每个数据集都要重复次蒸馏步骤|1.2 基于任务相关的蒸馏动机：将模型的能极致的传授给模型，可否将监督数据加进来？微调+蒸馏=任务相关蒸馏数据

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（1-6 大模型与小模型联动及落地.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。