马腾-Mooncake:面向长上下文的 KVCache 中心化推理优化方案.pdf

编号:890151 PDF 37页 4.68MB 下载积分:VIP专享
下载报告请您先登录!

马腾-Mooncake:面向长上下文的 KVCache 中心化推理优化方案.pdf

1、演讲人:马腾010203040506Mooncake项目未来规划01算法-Transformer is all we need?内部所有的算子均为GEMM 或 BMM,最大化计算强度和并行度数据 Big Data is Everywhere数字化进程的推进使得采集和积累的数据前所未有的增多硬件 Huangs Law Take Over以 NVIDIA 为代表的 GPU 厂商通过提供高并发的稠密张量计算替代传统CPU 厂商成为算力的主要提供商,从而进一步延续 FLOPS per Watt 的增速智能 AI Become Everywhere Too随着人工智能的发展,越来越多的软件基于 AI 技

2、术进行改造Data Source:SimilarWeb2024年3月Kimi凭借长文本处理能力成为最主要的大模型服务之一2025年1月DeepSeek凭借推理能力快速晋升全球最知名的大模型服务之一2024年:Llama3-405B=Dense模型+SFT+8k上下文(后扩展至128k)2025年:Deepseek-671B=MoE模型+RL+128k上下文模型规模模型结构训练方法上下文长度变化:更多资源部署方式训推一体kvcache影响:Data Source:SimilarWeb2024年3月Kimi凭借长文本处理能力成为最主要的大模型服务之一2025年1月DeepSeek凭借推理能力快速晋

3、升全球最知名的大模型服务之一更多数据+更大模型+更长上下文窗口=更高智能全新模型结构+更多资源需求+更低使用成本+更高性能+更安全可信部署=更高技术挑战阶段核心指标优化目标举例预填充阶段TTFT最小化首次响应延迟P90 TTFT 0.4秒(90%请求需满足)解码阶段TBT/TPOT平滑生成速度,减少波动用户每秒可读40词(快于人类阅读速度)整体推理框架TPS单位时间内处理的token数量并发用户数、内存限制、上下文切换线上服务质量GoodPut满足SLO的有效吞吐量满足TTFT/TPOT,平衡成本与服务质量量化FP8/Int4只存部分层YOCO/CLA降低维度MLA减少Head数GQA/MQA

4、高效显存管理Page AttentionvAttention静态稀疏化滑动窗口例子 每一个 1 token 对应 2*层数*隐藏维度=数十乃至数百 KB 的 KVCache 不仅数据量极大,还需要尽可能地快速进行传输不然会导致 GPU 空转一个 Token(数 Bytes 级别)一个 Token 对应的 KVCache(数十 KB 级别)单台机器的内存(数 TB 级别)单张 GPU 显存(数十 GB 级别)推理可复用应缓存的中间结果KVCache(数百 TB 乃至 PB 级别)每天数千亿 Token 的大型推理服务02vLLMPage-AttentionSGLangPrefix Attenti

5、onOrcaContinus Batching通过切分任务打满算力Page粒度管理减少显存占用尽可能复用KVCache模型级别优化通过算法优化(Head/Dimension)减少KVCache产生量KVCache压缩KVCache量化使用低精度格式KVCache消除减少无关重要的数据 在PagedAttention中,KV Cache只是在一个请求内复用,而没有做到跨请求的KV Cache复用 在多轮对话的场景下,下一轮的prompt其实刚好就是上一轮的prompt+completionSGLangvLLMDeepSeekHash RadixAttention的方法,它使用哈希码作为物理KV

6、Block的唯一标识hash(prefix tokens+block tokens)Logical KV blocks-Physical KV blocks上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中原生支持通过RadixAttention来实现Prefix Cachingfirst-come-first-serve,无法达到最优的缓存复用效果cache-aware scheduling的调度算法共享和复用基本原理“What day is it today”Prefill for Request IdayWhattodaytomorrowitisittodayisd

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(马腾-Mooncake:面向长上下文的 KVCache 中心化推理优化方案.pdf)为本站 (brown) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠