当前位置:首页 > 报告详情

马腾-Mooncake:面向长上下文的 KVCache 中心化推理优化方案.pdf

上传人: b**** 编号:890151 2025-08-24 37页 4.68MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要内容概括如下: - **Mooncake项目**:一个用于大模型服务的分布式推理系统,以KVCache为中心,实现P/D分离架构,提升吞吐量。 - **核心数据**: - Kimi:承载80%以上流量,吞吐量提升75%以上。 - DeepSeek:2025年1月成为全球最知名的大模型服务之一。 - Llama3-405B:2024年模型,包含Dense模型、SFT和8k上下文。 - Deepseek-671B:2025年模型,包含MoE模型、RL和128k上下文。 - **关键点**: - Mooncake通过KVCache优化,实现高效的数据缓存和复用。 - 采用多种分离策略(PD分离、AF分离、EPD分离、推训分离)提升性能和成本效益。 - 与NVIDIA Dynamo等系统合作,推动大模型推理技术的发展。 - Kimi底层推理架构承载大量用户,提升用户体验。
"大模型推理,Mooncake如何破局?" "Transformer时代,算法革新揭秘!" "AI加速引擎,Mooncake性能大揭秘!"
客服
商务合作
小程序
服务号
折叠