当前位置:首页 > 报告详情

顾静-云原生平台下大语言模型PD分离架构的规模化挑战与实践.pdf

上传人: a****e 编号:772336 2025-08-10 51页 5.55MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了云原生平台下大语言模型(LLM)的PD分离架构规模化挑战与实践。核心内容包括: 1. PD分离架构:将Prefill(预填充)和Decode(解码)阶段分开部署,以提高资源优化、吞吐与延迟平衡、可伸缩性和稳定性。 2. 实现方案:介绍了vLLM、SGLang、Dynamo等开源社区的PD分离方案。 3. ACK推理套件:阿里云的解决方案,支持模型感知智能路由、容器负载RoleBasedGroup、可观测性与自动弹性伸缩等功能。 4. 关键数据:使用Fluid分布式缓存,Deepseek-R1 671B模型加载时间从39分钟减少到229秒,减少90.2%。 5. 推理网关:ACK Gateway支持多种调度策略,如KV Cache-Aware、Pending Requests等。 6. 展望:推动开源社区PD分离框架简化,集成最新推理引擎及优化技术,如DeepEP、KVCache Offloading等。 总结:文章聚焦于云原生平台下LLM的PD分离架构,介绍了实现方案、挑战及优化策略,展示了显著提升推理效率和降低成本的效果。
"云原生下,LLM如何部署?" "PD分离架构,有哪些实践挑战?" "ACK推理套件,能带来哪些便利?"
客服
商务合作
小程序
服务号
折叠