报告预览

昇腾推理技术的优化实践.pdf

编号：711772

PDF 35页 1.26MB 下载积分：VIP专享

下载报告请您先登录！

昇腾推理技术的优化实践.pdf

1、昇腾推理技术的优化实践演讲人：张君目录01020304大模型推理的现状及挑战昇腾硬件亲和的FA融合算子性能优化实践基于Ascend C的MC通算融合算子性能优化总结与展望01大模型推理的现状以及挑战现状1：模型规模增大及自回归解码带来访存及算力利用率压力NNNNNNNNNN缓存Decode阶段Prefill阶段batchseq小迭代多步不同请求输入长度不同batchseq大不同用户请求输出长度不同迭代步数多的请求时延长每token串行02时延决定用户体验，吞吐衡量系统成本模型规模大，内存容量和访存是瓶颈内存容量不足导致单卡无法推理模型参数：百亿/千亿模型参数超过单卡内存容量KVCache：随着

2、batchsize和序列长度增长，占用更多内存；访存带宽制约50ms/token推理时延达成多路并发缓和带宽压力，提升吞吐但增加时延随着序列增长，KVCache访存成为瓶颈，推理时延成倍增长自回归算力利用率低，低时延高吞吐难以兼顾Prefill和Decode两阶段推理差异大，难以充分利用算力资源基于request的调度导致大量算力空闲：同batch序列长度差异大不同阶段的请求难以batch：prefill/decode输入、kvcache维度差别大Decode阶段每token串行解码算力利用率低串行解码以GEMV为主，计算访存比低KVCache访存量随序列长度增长，Attention占比增加现

3、状2：KV Cache导致内存墙”瓶颈进一步加剧推理计算量=L (4 2 +24 Seq Dim2)KVCache内存占用=2 L Attention计算量与序列长度成平方关系，线性层计算量与序列长度成正比不采用KV Cache，全量计算硬推，计算量随序列长度增加指数级增涨采用KV Cache，推理内存开销数线性增长，形成“内存墙”和”带宽墙”=S =oftmax(S)Attention计算结果 2K Cache V Cache=oftmax(S)S 2Attention计算结果 2示例：以Llama2 70B为例，1M序列长度推理时延52秒，算力利用率50%，需要消耗216NPU卡（备注：

4、L网络层数，特征维度，序列长度，KVB为精度）示例：以Llama2 70B为例，1M序列长度推理时延52秒，HBM利用率50%，需要消耗18 NPU卡内存墙：KV Cache内存占用随序列长度、Batch size增加，KV cache显存开销成倍上升，采用HBM存储KV Cache成本依然很高。原理：矩阵矩阵，瓶颈：算力原理：向量矩阵，瓶颈：HBM或者显存开销大模型推理常用加速技术算法层优化模型分片：分片策略优化，增量推理投机推理：自投机增量推理模型量化：8Bit量化，4Bit量化 Attention计算优化 02算子层优化算子融合：QKV融合大算子，提升增量响应。高性能加速库

5、：cuBLAS，FasterTransformer，ATB等 01框架层优化 Continous Batching PageAttention PD分离部署 03发力点02昇腾硬件亲和的FA融合算子性能优化实践挑战1：vector能力不足，如何用cube补齐受限于昇腾Atlas 300I上Vec算力相较于Cube低很多，FA(FlashAttention)算子的性能分析结果呈现很明显的VecBound(Vector是性能瓶颈，约占总执行时间的90%)Click to add text FA/PA算法的重点就是使用onlineSoftmax(分块、动态)的方法小步快跑，逐步对kv cache进

6、行计算，提升计算效率，减少内存占用 onlineSoftmax算法一般涉及exp、sub、Mul、Add等步骤，由于它们都是向量操作，所以一般放在Vec进行更新计算，这部分约占算子执行总时间的15%但Mul和Add操作是非常亲和矩阵乘计算的，所以现考虑能否把这两个计算步骤改到Cube进行计算，提升性能AI Core的耦合架构 Cube计算单元和Vector计算单元同核部署，Cube计算单元和Vector计算单元共享同一个Scalar单元，统一加载所有的代码段。列出了计算架构中的存储单元和计算单元，箭头表示数据处理流向，MTE1/MTE2/MTE3代表搬运单元。Scalar，Vector计算单元

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（昇腾推理技术的优化实践.pdf）为本站（探险者）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。