当前位置:首页 > 报告详情

袁镱-一念 LLM分布式推理优化实践.pdf

上传人: b**** 编号:890142 2025-08-24 15页 2.18MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据标记内容,全文主要围绕大语言模型推理的优化展开,涉及硬件、软件和模型定制等多个方面。以下是关键点: 1. **吞吐量目标**:16卡H20的吞吐量可达30K+ tokens/s。 2. **现状与挑战**:2025年2月,vLLM和SGLang吞吐量约2K tokens/s,8月提升至约7K tokens/s,TensorRT-LLM 11.2K tokens/s,一念LLM 14.6K tokens/s,仍有优化空间。 3. **优化方向**:调度与显存管理、开源算子引入、显存高效调度、算子择优等。 4. **DeepSeek-R1**:KvCache可用显存多130%,吞吐高30%。 5. **MoE和MLA**:针对MoE和MLA模型,提出增加并行token数、权重吸收、全DP全TP等方案。 6. **硬件限制**:计算能力、decode效率、Sequence token数等对显存需求的影响。 7. **优化手段**:增大推理token数、优化显存管理、降低KvCache冗余等。 8. **未来工作**:EP和PD分离、精度量化、Multi-Stream并行等。
"LLM推理速度突破,你准备好了吗?" "深度学习新框架,挑战与机遇并存!" "国产大模型崛起,一念LLM开源揭秘!"
客服
商务合作
小程序
服务号
折叠