马腾-Mooncake：面向长上下文的 KVCache 中心化推理优化方案.pdf

上传人： b****

编号：890151

2025-08-24

PDF 37页 4.68MB

《马腾-Mooncake：面向长上下文的 KVCache 中心化推理优化方案.pdf》由会员分享，可在线阅读，更多相关《马腾-Mooncake：面向长上下文的 KVCache 中心化推理优化方案.pdf（37页珍藏版）》请在三个皮匠报告上搜索。

1、演讲人：马腾010203040506Mooncake项目未来规划01算法-Transformer is all we need?内部所有的算子均为GEMM 或 BMM，最大化计算强度和并行度数据 Big Data is Everywhere数字化进程的推进使得采集和积累的数据前所未有的增多硬件 Huangs Law Take Over以 NVIDIA 为代表的 GPU 厂商通过提供高并发的稠密张量计算替代传统CPU 厂商成为算力的主要提供商，从而进一步延续 FLOPS per Watt 的增速智能 AI Become Everywhere Too随着人工智能的发展，越来越多的软件基于 AI 技

2、术进行改造Data Source:SimilarWeb2024年3月Kimi凭借长文本处理能力成为最主要的大模型服务之一2025年1月DeepSeek凭借推理能力快速晋升全球最知名的大模型服务之一2024年：Llama3-405B=Dense模型+SFT+8k上下文（后扩展至128k）2025年：Deepseek-671B=MoE模型+RL+128k上下文模型规模模型结构训练方法上下文长度变化：更多资源部署方式训推一体kvcache影响：Data Source:SimilarWeb2024年3月Kimi凭借长文本处理能力成为最主要的大模型服务之一2025年1月DeepSeek凭借推理能力快速晋

3、升全球最知名的大模型服务之一更多数据+更大模型+更长上下文窗口=更高智能全新模型结构+更多资源需求+更低使用成本+更高性能+更安全可信部署=更高技术挑战阶段核心指标优化目标举例预填充阶段TTFT最小化首次响应延迟P90 TTFT 0.4秒（90%请求需满足）解码阶段TBT/TPOT平滑生成速度，减少波动用户每秒可读40词（快于人类阅读速度）整体推理框架TPS单位时间内处理的token数量并发用户数、内存限制、上下文切换线上服务质量GoodPut满足SLO的有效吞吐量满足TTFT/TPOT，平衡成本与服务质量量化FP8/Int4只存部分层YOCO/CLA降低维度MLA减少Head数GQA/MQA

4、高效显存管理Page AttentionvAttention静态稀疏化滑动窗口例子每一个 1 token 对应 2*层数*隐藏维度=数十乃至数百 KB 的 KVCache 不仅数据量极大，还需要尽可能地快速进行传输不然会导致 GPU 空转一个 Token（数 Bytes 级别）一个 Token 对应的 KVCache(数十 KB 级别)单台机器的内存（数 TB 级别）单张 GPU 显存(数十 GB 级别)推理可复用应缓存的中间结果KVCache(数百 TB 乃至 PB 级别)每天数千亿 Token 的大型推理服务02vLLMPage-AttentionSGLangPrefix Attenti

5、onOrcaContinus Batching通过切分任务打满算力Page粒度管理减少显存占用尽可能复用KVCache模型级别优化通过算法优化（Head/Dimension）减少KVCache产生量KVCache压缩KVCache量化使用低精度格式KVCache消除减少无关重要的数据在PagedAttention中，KV Cache只是在一个请求内复用，而没有做到跨请求的KV Cache复用在多轮对话的场景下，下一轮的prompt其实刚好就是上一轮的prompt+completionSGLangvLLMDeepSeekHash RadixAttention的方法，它使用哈希码作为物理KV

6、Block的唯一标识hash(prefix tokens+block tokens)Logical KV blocks-Physical KV blocks上下文硬盘缓存技术，把预计未来会重复使用的内容，缓存在分布式的硬盘阵列中原生支持通过RadixAttention来实现Prefix Cachingfirst-come-first-serve，无法达到最优的缓存复用效果cache-aware scheduling的调度算法共享和复用基本原理“What day is it today”Prefill for Request IdayWhattodaytomorrowitisittodayisd

马腾-Mooncake：面向长上下文的 KVCache 中心化推理优化方案.pdf

相关报告