孟令公-大模型推理性能优化与实践.pdf-三个皮匠报告

1、孟令公得物机器学习高级专家主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯、阿里等多家互联网大厂。2022年加入得物，专注于大模型相关技术，包括推理加速与各应用场景落地，曾在得物技术公众号发表过多篇高质量大模型相关文章，比如：利用多Lora节省大模型部署成本，KubeAI大模型推理加速实践，得物大模型平台接入最佳实践。演讲主题：大模型推理性能提升实践大模型推理性能优化与实践得物技术孟令公大模型推理引擎设计KV Cache高效显存管理Prefill与Decode阶段的优化利用多Lora节省成本其它优化手段大模型推理引擎设计应用程序用户硬件支持：GP

2、U CPU NPU推理引擎核心模块模型支持调度器PrefillDecodeKV Cache管理Llama系列Qianwen系列Other大模型推理引擎设计业务方在训练并部署大模型后，需要专用的大模型推理引擎来加速推理过程。当用户发送请求时，Req 会首先传递给应用程序；当应用程序会调用大模型的推理引擎来触发推理逻辑。大模型推理引擎的核心目标是提升推理速度和吞吐量，并兼容各种大模型和硬件。推理引擎的核心模块主要包括调度器、Prefill、Decode 和 KV Cache 管理，这四个部分是性能优化的关键。当然，它还包括 Token、DeToken、采样、模型支持、硬件支持(CUDA)等其他逻

3、辑。KVCache高效显存管理-自回归推理过程LLM输入：输出：人工智能是一项快速LLM发展快速LLM的发展LLM技术的退出条件：达到模型预定义的最大长度。遇到终止token。KVCache高效显存管理-Attention计算Input:XQ=Wq*XK=Wk*XV=Wv*X每次计算，只需要当前的Q，但是需要之前历史所有的K与V，因此需要为每个请求维护一个历史K与V的缓存，叫做KVCache。KVCache高效显存管理-KVCache与显存碎片REQ硬件支持：GPU CPU XPU推理引擎Layer1Layer2Layer3前向传播人工智能是一项快速发展的技术RESP需要为每个请求维护一个KV

4、Cache的缓存。随着吐出Token的增加，KVCache会持续增大。KVCache高效显存管理-KVCache与显存碎片 KVCache在系统中占比多少？KVCache的频繁申请与释放会带来什么问题？显存碎片！就像内存管理一样，频繁的申请与释放不规则的内存，时间长了都会产生大量碎片。图片来自论文：Efficient Memory Management for Large Language Model Serving with PagedAttentionKVCache高效显存管理-VLLM Paged Attention视频来自文章：vLLM:Easy,Fast,and Cheap LLM

5、Serving with PagedAttentionKVCache高效显存管理-VLLM Paged Attention VLLM 的 PagedAttention 是受操作系统虚拟内存和分页启发的注意力算法。它将注意力键和值（KV缓存）分成固定大小的页，非连续存储于内存中，从而高效管理内存，减少碎片，提高系统的吞吐量。此外，它支持多序列共享内存，例如在并行采样时共享提示词的 KV 缓存，进一步降低内存开销并提升性能。KVCache高效显存管理-VLLM Paged Attention图片来自文章：vLLM:Easy,Fast,and Cheap LLM Serving with Page

6、dAttention由于采用了Paged AttentionvLLM 的吞吐量比 HF 高 8.5 倍至 15 倍。KVCache高效显存管理-SGLang Radix Attention图片来自文章：SGLang:Efficient Execution of Structured Language Model Programs蓝色框表示可共享的提示部分，绿色框表示不可共享的部分，黄色框标记不可共享的模型输出。可共享的元素包括少样本学习示例、自一致性中的问题、多轮对话中的聊天记录，以及思维树中的搜索历史。共享部分的KV Cache能否复用？KVCache高效显存管理-SGLang Radix

孟令公-大模型推理性能优化与实践.pdf

相关报告