孟令公-大模型在得物部署优化实践.pdf

编号:751725 PDF 52页 8.80MB 下载积分:VIP专享
下载报告请您先登录!

孟令公-大模型在得物部署优化实践.pdf

1、大模型在得物部署优化实践孟令公|得物孟令公得物 机器学习高级专家得物机器学习高级专家,算法工程方向,主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯,阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地。目 录CONTENTSI.背景II.如何设计高性能的大模型推理引擎III.通用大模型性能优化之路解决显存碎片问题,大幅提升吞吐Paged Attention缓存之前请求的计算结果,减少重复计算Radix Attention请求分块处理,避免单个请求卡顿Chunked Prefill使用多卡推理,推理速度翻倍小模

2、型推理+大模型验证推测解码IV.DeepSeek性能优化DeepSeek:专家并行 VS Tensor并行DeepSeek:MTP与推测解码DeepSeek:单机部署与双机部署V.得物大模型训练推理平台得物大模型训练推理平台:一键发起微调训练与推理部署得物大模型训练推理平台:多lora部署方式Vi.总结与展望Deepseek-r1等大模型的火爆标志着本地部署大模型的需求日益增长。我们将探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析。同时,我们还将分享如何在本地高效部署完整版本的Deepseek-r1大模型。优化方法大多来源于开源社区,但我们希望大家能更多关注这些优化背后的思路。

3、背景吞吐量 传统上,我们用每秒请求数(QPS)来衡量吞吐量,即系统每秒能够处理多少请求。大模型有一个重要指标每秒Token数(tokens/s),它反映了系统每秒能处理的输入或输出Token数量。响应时间 系统处理每个请求所需的时间。大模型有一个指标首个Token到达时间(TTFT:Time To First Token),即从开始处理请求到输出第一个Token所需的时间。背景大模型推理性能的两个关键指标性能足够高CPU与GPU分离设计扩展性好模块高内聚低耦合如何设计高性能的大模型推理引擎1.在传统的Python多线程环境中,CPU密集型任务与GPU任务会争夺GIL,导致GPU利用率低和高并发

4、场景下响应速度差。2.CPU与GPU分离解决了Python中全局解释器锁(GIL)带来的性能瓶颈问题。3.通过分离CPU与GPU,避免了GIL竞争,从而提升了GPU任务的执行效率和系统性能。CPU与GPU分离设计解决Python GIL锁带来的问题如何设计高性能的大模型推理引擎推理服务框架类型QPS耗时GPU使用率单进程设计(GPU与GPU任务分布多个线程)4.51.05s2%CPU与GPU多进程分离设计27.43437ms12%CPU与GPU分离设计性能提升如何设计高性能的大模型推理引擎CPU与GPU分离设计性能提升如何设计高性能的大模型推理引擎扩展性好的架构如何设计高性能的大模型推理引擎扩

5、展性好的架构-sglangsglang进程层面管理类如何设计高性能的大模型推理引擎KV-Cache带来显存碎片问题1.大 部分 推理 过程 都涉 及注 意力 计算(Attention)2.每次计算都需要申请并使用一个名为 kvcache 的缓存。3.随着请求的不断增加,kvcache 的大小与数量会逐步上升,而且它会被频繁地被申请和释放。4.如果不对 kvcache 使用的 GPU 显存进行有效管理,显存碎片将大量累积,最终可能导致系统性能下降甚至崩溃。解决显存碎片问题,大幅提升吞吐Paged AttentionPaged Attention工作原理解决显存碎片问题,大幅提升吞吐Paged A

6、ttention解决显存碎片问题,大幅提升吞吐Paged Attention性能提升与 HuggingFace Transformers 相比,吞吐量可提升至 24 倍;与 HuggingFace TGI 相比,提升可达 3.5 倍。图片来自 vLLM:Easy,Fast,and Cheap LLM Serving with PagedAttentionShow CodeKVCache实现注意力计算使用KVCache解决显存碎片问题,大幅提升吞吐Paged Attention这些场景还可以优化图片来自 Fast and Expressive LLM Inference with RadixAt

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(孟令公-大模型在得物部署优化实践.pdf)为本站 (拾亿) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠