当前位置:首页 > 报告详情

Best Practices of running vLLM on Xeon-Tony Wu 李江.pdf

上传人: 张** 编号:181051 2024-09-27 32页 3.18MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了vLLM推理性能在Intel® Xeon®服务器上的表现。vLLM是一个开源的大语言模型推理服务框架,与Intel合作在Xeon服务器上进行了性能优化。主要内容包括: 1. vLLM简介:vLLM是一个基于PyTorch和Huggingface的大语言模型推理服务框架,由UC Berkeley Sky Computing Lab发起。它支持分页注意力机制,高效管理LLM推理服务内存。 2. vLLM在Intel® Xeon®服务器:Intel与vLLM社区合作,将vLLM集成到Xeon服务器上。CPU后端支持所有vLLM模型中非MoE模型在BF16/FP32下的推理,并在32核SPR处理器平台上与一张入门级数据中心GPU的吞吐量持平。 3. 案例分析:包括同步优化、软件预取和循环并行化。这些优化分别提高了吞吐量,减少了缓存未命中,降低了CPU系统时间。 综上所述,vLLM在Intel® Xeon®服务器上表现出色,通过优化可以进一步提高性能。
如何提高LLM推理服务在Intel Xeon服务器上的性能? vLLM CPU后端如何利用Intel Xeon处理器的AMX指令集? 如何通过软件预取和循环并行化优化LLM推理性能?
客服
商务合作
小程序
服务号
折叠