当前位置:首页 > 报告详情

孟令公-大模型推理性能优化与实践.pdf

上传人: 哆哆 编号:630901 2025-04-19 45页 7.07MB

1、孟令公 得物机器学习高级专家主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯、阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地,曾在得物技术公众号发表过多篇高质量大模型相关文章,比如:利用多Lora节省大模型部署成本,KubeAI大模型推理加速实践,得物大模型平台接入最佳实践。演讲主题:大模型推理性能提升实践大模型推理性能优化与实践得物技术 孟令公大模型推理引擎设计KV Cache高效显存管理Prefill与Decode阶段的优化利用多Lora节省成本其它优化手段大模型推理引擎设计应用程序用户硬件支持:GP

2、U CPU NPU推理引擎核心模块模型支持调度器PrefillDecodeKV Cache管理Llama系列Qianwen系列Other大模型推理引擎设计 业务方在训练并部署大模型后,需要专用的大模型推理引擎来加速推理过程。当用户发送请求时,Req 会首先传递给应用程序;当应用程序会调用大模型的推理引擎来触发推理逻辑。大模型推理引擎的核心目标是提升推理速度和吞吐量,并兼容各种大模型和硬件。推理引擎的核心模块主要包括调度器、Prefill、Decode 和 KV Cache 管理,这四个部分是性能优化的关键。当然,它还包括 Token、DeToken、采样、模型支持、硬件支持(CUDA)等其他逻

3、辑。KVCache高效显存管理-自回归推理过程LLM输入:输出:人工智能是一项快速LLM发展快速LLM的发展LLM技术的退出条件:达到模型预定义的最大长度。遇到终止token。KVCache高效显存管理-Attention计算Input:XQ=Wq*XK=Wk*XV=Wv*X每次计算,只需要当前的Q,但是需要之前历史所有的K与V,因此需要为每个请求维护一个历史K与V的缓存,叫做KVCache。KVCache高效显存管理-KVCache与显存碎片REQ硬件支持:GPU CPU XPU推理引擎Layer1Layer2Layer3前向传播人工智能是一项快速发展的技术RESP需要为每个请求维护一个KV

4、Cache的缓存。随着吐出Token的增加,KVCache会持续增大。KVCache高效显存管理-KVCache与显存碎片 KVCache在系统中占比多少?KVCache的频繁申请与释放会带来什么问题?显存碎片!就像内存管理一样,频繁的申请与释放不规则的内存,时间长了都会产生大量碎片。图片来自论文:Efficient Memory Management for Large Language Model Serving with PagedAttentionKVCache高效显存管理-VLLM Paged Attention视频来自文章:vLLM:Easy,Fast,and Cheap LLM

5、Serving with PagedAttentionKVCache高效显存管理-VLLM Paged Attention VLLM 的 PagedAttention 是受操作系统虚拟内存和分页启发的注意力算法。它将注意力键和值(KV缓存)分成固定大小的页,非连续存储于内存中,从而高效管理内存,减少碎片,提高 系统的吞吐量。此外,它支持多序列共享内存,例如在并行采样时共享提示词的 KV 缓存,进一步降低内存开销并提升性能。KVCache高效显存管理-VLLM Paged Attention图片来自文章:vLLM:Easy,Fast,and Cheap LLM Serving with Page

6、dAttention由于采用了Paged AttentionvLLM 的吞吐量比 HF 高 8.5 倍至 15 倍。KVCache高效显存管理-SGLang Radix Attention图片来自文章:SGLang:Efficient Execution of Structured Language Model Programs蓝色框表示可共享的提示部分,绿色框表示不可共享的部分,黄色框标记不可共享的模型输出。可共享的元素包括少样本学习示例、自一致性中的问题、多轮对话中的聊天记录,以及思维树中的搜索历史。共享部分的KV Cache能否复用?KVCache高效显存管理-SGLang Radix

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了如何提升大模型推理性能,包括优化推理引擎的设计和调度策略,以及采用模型量化等技术。关键点如下: 1. 孟令公是得物机器学习高级专家,主要负责得物算法平台的相关研发工作,曾就职于腾讯、阿里等互联网大厂。 2. 得物从0到1打造通用大模型训练和推理平台,专注于大模型相关技术,如推理加速和应用场景落地。 3. 大模型推理性能提升实践包括:KV Cache高效显存管理、Prefill与Decode阶段的优化、利用多Lora节省成本等。 4. KV Cache管理通过固定大小的页实现高效内存管理,减少碎片,提高吞吐量。 5. 多Lora方法将大模型的原始参数矩阵拆分为低秩矩阵,减少训练参数数量,降低训练成本。 6. 通过模型量化技术,如AWQ和GPTQ,在不降低精度的情况下减少模型体积和计算量,加速推理。 7. 底层推理库优化,如Torch compile和Cuda graph,提升GPU性能。 综上所述,通过上述技术和方法,可以有效提升大模型推理性能,实现更高效的推理过程。
"如何通过KVCache提高大模型推理性能?" "多Lora技术如何节省大模型部署成本?" "大模型推理引擎设计中的关键模块有哪些?"
客服
商务合作
小程序
服务号
折叠