孟令公-大模型推理性能优化与实践.pdf

编号:630901 PDF 45页 7.07MB 下载积分:VIP专享
下载报告请您先登录!

孟令公-大模型推理性能优化与实践.pdf

1、孟令公 得物机器学习高级专家主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯、阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地,曾在得物技术公众号发表过多篇高质量大模型相关文章,比如:利用多Lora节省大模型部署成本,KubeAI大模型推理加速实践,得物大模型平台接入最佳实践。演讲主题:大模型推理性能提升实践大模型推理性能优化与实践得物技术 孟令公大模型推理引擎设计KV Cache高效显存管理Prefill与Decode阶段的优化利用多Lora节省成本其它优化手段大模型推理引擎设计应用程序用户硬件支持:GP

2、U CPU NPU推理引擎核心模块模型支持调度器PrefillDecodeKV Cache管理Llama系列Qianwen系列Other大模型推理引擎设计 业务方在训练并部署大模型后,需要专用的大模型推理引擎来加速推理过程。当用户发送请求时,Req 会首先传递给应用程序;当应用程序会调用大模型的推理引擎来触发推理逻辑。大模型推理引擎的核心目标是提升推理速度和吞吐量,并兼容各种大模型和硬件。推理引擎的核心模块主要包括调度器、Prefill、Decode 和 KV Cache 管理,这四个部分是性能优化的关键。当然,它还包括 Token、DeToken、采样、模型支持、硬件支持(CUDA)等其他逻

3、辑。KVCache高效显存管理-自回归推理过程LLM输入:输出:人工智能是一项快速LLM发展快速LLM的发展LLM技术的退出条件:达到模型预定义的最大长度。遇到终止token。KVCache高效显存管理-Attention计算Input:XQ=Wq*XK=Wk*XV=Wv*X每次计算,只需要当前的Q,但是需要之前历史所有的K与V,因此需要为每个请求维护一个历史K与V的缓存,叫做KVCache。KVCache高效显存管理-KVCache与显存碎片REQ硬件支持:GPU CPU XPU推理引擎Layer1Layer2Layer3前向传播人工智能是一项快速发展的技术RESP需要为每个请求维护一个KV

4、Cache的缓存。随着吐出Token的增加,KVCache会持续增大。KVCache高效显存管理-KVCache与显存碎片 KVCache在系统中占比多少?KVCache的频繁申请与释放会带来什么问题?显存碎片!就像内存管理一样,频繁的申请与释放不规则的内存,时间长了都会产生大量碎片。图片来自论文:Efficient Memory Management for Large Language Model Serving with PagedAttentionKVCache高效显存管理-VLLM Paged Attention视频来自文章:vLLM:Easy,Fast,and Cheap LLM

5、Serving with PagedAttentionKVCache高效显存管理-VLLM Paged Attention VLLM 的 PagedAttention 是受操作系统虚拟内存和分页启发的注意力算法。它将注意力键和值(KV缓存)分成固定大小的页,非连续存储于内存中,从而高效管理内存,减少碎片,提高 系统的吞吐量。此外,它支持多序列共享内存,例如在并行采样时共享提示词的 KV 缓存,进一步降低内存开销并提升性能。KVCache高效显存管理-VLLM Paged Attention图片来自文章:vLLM:Easy,Fast,and Cheap LLM Serving with Page

6、dAttention由于采用了Paged AttentionvLLM 的吞吐量比 HF 高 8.5 倍至 15 倍。KVCache高效显存管理-SGLang Radix Attention图片来自文章:SGLang:Efficient Execution of Structured Language Model Programs蓝色框表示可共享的提示部分,绿色框表示不可共享的部分,黄色框标记不可共享的模型输出。可共享的元素包括少样本学习示例、自一致性中的问题、多轮对话中的聊天记录,以及思维树中的搜索历史。共享部分的KV Cache能否复用?KVCache高效显存管理-SGLang Radix

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(孟令公-大模型推理性能优化与实践.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠