1、模型轻量化技术与端侧落地宋晓辉|OPPO演讲嘉宾宋晓辉OPPO AI中心-高级NLP算法工程师中国科学院信息工程研究所工学博士,现就职于OPPO AI中心,负责大模型轻量化技术体系建设和端侧文本算法业务。目 录CONTENTS1.大模型端侧化背景2.模型轻量化技术3.量化感知训练4.案例分享5.总结与展望大模型端侧化背景PART 01模型端侧化的时代基础端侧算力的高速发展苹果A Bionic系列芯片谷歌Edge TPU高通/MTK 带NPU的SoC芯片开发工具与推理技术TensorFlow LitePyTorch MobileONNX量化推理模型压缩大模型的优秀效果OpenAI GPTClau
2、deQwenDeepseek模型端/云部署的优势和劣势1.算力强大,性能效果上限高,支持复杂的业务逻辑2.灵活易扩展,易于更新和维护,对终端硬件依赖很小3.数据集中管理,可以分析挖掘,保持竞争力1.网络强依赖/高延迟2.计算/网络带宽成本高3.隐私和数据安全问题的限制1.低延迟,离线可用2.隐私保护性强,减少数据泄漏风险3.可以支持高度个性化服务4.网络维护和运营成本低1.算力有限,限制模型体量2.给用户带来额外的功耗3.更新困难,问题修复周期较长,缺乏日志4.对终端硬件依赖,开发工作量更大云侧部署端侧部署优势劣势端侧部署面临的主要挑战如何针对硬件环境,构建小而精的端侧模型,保证编解码速度快,
3、同时体验不输于云侧模型。快:构建高效的端侧模型如何优化端侧模型的存储空间占用,实现低成本、高效率的部署和更新,提高算法功能的鲁棒性。稳:鲁棒的模型效果和推理环境01如何在保证延迟低的基础上,考虑内存和功耗的限制,实现推理方案的优化,提升端侧模型的资源使用效率。省:优化推理方案03针对硬件环境优化,实现高效、稳定、节省资源的端侧模型02模型轻量化技术PART 02模型轻量化技术prune 模型剪枝通过移除网络中不重要的权重或神经元,来减少模型的计算量和存储要求。模型剪枝技术distil知识蒸馏通过将大型(教师模型)模型的知识传递给较小的(学生模型),使较小模型在较少参数下也能表现良好。知识蒸馏技
4、术sparse 通过将部分权重置零来减少模型中活跃连接的数量,来降低计算复杂度和存储需求。权重稀疏化技术quant量化通过降低模型参数和计算的精度(如将32位浮点数转换为8位整数),减少存储和计算资源。量化压缩技术2.1知识蒸馏离线蒸馏数据构造数据增强在现有数据上通过在超大规模模型上进行推理和调优,进行数据清洗或者增强工作自动标注,常见的依赖无标签数据加提示词工程,通过超大规模模型构建场景训练数据数据合成,在指令微调阶段通过超大规模模型构建大规模通用指令集12基于中间特征/注意力的蒸馏1在线蒸馏教师模型往往和学术模型体量差异巨大,存在词表、架构上的差异,不能实时参与到训练过程中,通常用于以下场
5、景:教师和学生模型使用相同架构或者在关键组件上存在相似性,例如attention,词表等,可以直接参与训练。通常用于提升参数效率的场景。技术较为丰富和多样:知识蒸馏基于采样策略的序列蒸馏2基于回复/logits的蒸馏32.1知识蒸馏-LLM的logits知识蒸馏为什么使用logits蒸馏1 J.Gou,B.Yu,S.J.Maybank,and D.Tao,“Knowledge Distillation:A Survey,”arXiv:2006.05525 cs,stat,Oct.2020,Accessed:Nov.25,2020.Online.Available:http:/arxiv.org
6、/abs/2006.05525实践发现Logits蒸馏可以强化模型泛化能力和减少量化损失预训练蒸馏成本过高,通常是微调阶段的指令蒸馏教师和学生模型可以使用相同架构,但超参数不同,特征维度不同,但词表不会随模型规模变化,logits/回复蒸馏最直观数据稀缺/垂域场景下,logits蒸馏比较高效4123-微调后的 LLM 的 logits 表现出极端的长尾分布,其中的重要信息集中于非长尾部分-采样策略(top-k/top-p)下,大模型logits的内部排序对生成结果有着重要影响2.1知识蒸馏-LLM的logits知识蒸馏M.Li,F.Zhou,and X.Song,“BiLD:Bi-direct