当前位置:首页 > 报告详情

赵军平-大模型推理显存优化.pdf

上传人: le****ng 编号:186937 2024-12-17 41页 5.04MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了蚂蚁集团在大模型推理显存优化方面的创新实践。关键点如下: 1. 显存需求与挑战:文章指出,大型模型推理(如LLM)对显存需求巨大,且随着模型规模的扩大和推理batch的变化,显存容量和访存带宽成为限制因素。 2. 显存管理优化:提出了基于CUDA VMM的显存管理策略,通过虚拟地址和物理地址的映射,以及动态remapping技术,解决了显存碎片问题,提高了显存利用率。 3. virtualTensor优化:介绍了virtualTensor的概念,它能够解耦attn kernel实现与KV cache显存管理,通过优化KV cache的使用,显著提升了吞吐量和降低了时延。 4. LayerKV优化:为解决显存不足导致的TTFT(推理时间)耗时增长问题,提出了LayerKV优化方案,通过分层预填充和动态分配策略,减少了TTFT,并提高了QPS(每秒查询数)。 5. 显存优化效果:文章提供了具体的性能对比数据,展示了GMLake、virtualTensor、LayerKV等优化技术在不同场景下的显存优化效果,如降低显存占用、提升模型训练和推理性能等。 6. 开源与招聘:蚂蚁集团鼓励开源合作,并招聘相关领域的应届毕业生和学术实习生,共同探索AI的无限可能。
如何实现虚拟Tensor?" 如何解决TTFT耗时激增问题?" 如何实现权重和中间结果的透明共享?"
客服
商务合作
小程序
服务号
折叠