1、小米大模型端侧部署落地探索小米大模型端侧部署落地探索演讲人:黄武伟小米/大模型算法工程师CONTENTS目 录01端侧AI的重要性02LLM端侧部署的挑战03相关技术探索04总结与展望端侧AI的重要性端侧端侧AIAI在终端设备上直接运行和处理人工智能算法端侧端侧AIAI优势优势隐私和安全:隐私和安全:所有数据的存储和计算都在本地完成,避免了数据传输到云端可能带来的安全风险。可靠性:可靠性:端侧AI减少了对网络连接的依赖,即使在网络不稳定或断开的情况下也能正常工作,提高了系统的鲁棒性。端侧端侧AIAI优势优势成本效益:成本效益:端侧AI减少了对云端计算资源的需求,有助于降低成本,特别是在大规模部
2、署时更为明显。个性化服务:个性化服务:端侧AI可以根据用户的具体使用习惯和偏好提供更加个性化的服务,增强用户体验。小米为什么做端侧小米为什么做端侧AIAI(软件(软件 硬件)硬件)轻量化、本地部署是小米大模型技术主力突破方向轻量化、本地部署是小米大模型技术主力突破方向 小米的端侧设备数量大小米的端侧设备数量大LLM端侧部署的挑战云端云端VSVS端侧端侧服务器服务器GPUGPU手机手机计算能力计算能力数百TFLOPS的算力(如 A100)相对较低内存内存大容量显存有限的内存和存储(通常几个GB到十几GB)功耗功耗设计用于高功耗环境,散热要求高低功耗设计,优化能效带宽带宽A100显存带宽接近1.6
3、TB/sNPU 约70G/s存储差异存储差异内存瓶颈内存瓶颈6B6B模型模型 手机内存手机内存16G16G模型分片?模型分片?12GB6B推理速度推理速度端侧推理速度端侧推理速度 不做优化不做优化20 tokens/s20 tokens/s以内以内平均阅读速度:平均阅读速度:对于母语读者,平均阅读速度通常在300至500个字每分钟。(50+字/s)快速阅读速度:快速阅读速度:快速阅读者或经过训练的读者可以达到500至700 字每分钟,甚至更高。(100+字/s)相关技术探索大模型推理时延大模型推理时延推理时延=计算时间+数据搬运时间减少计算量剪枝量化减小数据搬运剪枝量化投机推理LLMLLM剪枝
4、剪枝非结构化剪枝非结构化剪枝结构化剪枝结构化剪枝半结构化剪枝半结构化剪枝移除神经网络中不重要的权重,或者完全移除这些权重对应的神经元连接。移除神经网络中不重要的权重,或者完全移除这些权重对应的神经元连接。LLMLLM剪枝剪枝目前硬件支持最友好目前硬件支持最友好结构化剪枝结构化剪枝Layer1Layer4Layer2Layer3Layer1Layer2Layer3剪层剪层剪剪HeadHead剪维度剪维度LLMLLM剪枝剪枝ICLRICLR 24 Sheared 24 Sheared LLaMALLaMA:Accelerating Language Model Pre-training via S
5、tructured:Accelerating Language Model Pre-training via Structured PruningPruningSheared Sheared LLaMALLaMA 剪枝+少量恢复训练超越相同大小的预训练模型 简单但很重要,这个结论让剪枝有了意义Sheared-Llama 会剪深度和 hidden dim,我们认为:损失较大 KV cache 压缩不足剪枝校准目标:加 mask 训练模型,优化一般的损失+mask 稀疏度损失LLMLLM剪枝剪枝 ACL ACL 2024 Pruning Large Language Models to Intra
6、-module Low-rank Architecture with Transitional 2024 Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations.Activations.我们的结构设计有以下特点:1)保留深度和 hidden dim2)减小 MHA 和 MLP 模块内模块内的激活维度3)参数量相近时,KV cache 显著减小显著减小高效剪枝高效剪枝TransActTransActLLMLLM剪枝剪枝