张君-大模型推理加速的优化实践.pdf-三个皮匠报告

1、张君昇腾生态技术专家硕士毕业于厦门大学通信与信息系统专业，毕业后一直就职于华为公司。曾在MR，Neuro computing有数篇论文发表。作为核心开发者参与AI框架(昇思)的开发，并负责动态图的自动微分以及动静结合模块。目前主要参与大模型推理加速在昇腾硬件上的相关开发和优化工作，致力于通过优化推理框架、模型算法和算子加速库等层面，进一步提升大模型推理的性能。演讲主题：大模型推理加速的优化实践大模型推理加速的优化实践昇腾生态技术专家张君大模型推理的技术挑战大模型推理加速技术发展现状昇腾大模型推理框架MindIE-LLM加速实践昇腾Transformer领域加速库ATB总结与展望大模型推理的

2、技术挑战PART1挑战一：计算和内存需求高模型参数的曾速远快于硬件内存容量的提升速度。Transformer模型中的参数数量（红色）呈现出2年240倍的超指数增长，而单个GPU内存（绿色）仅以每2年2倍的速度扩大。硬件算力提升速度远快于访存带宽提升速度，算力和访存存之间的差距越来越大，推理更大的模型也会更加困难。2020-20212022202320242025OpenAILLaMa开源模型国内大模型20-06 GPT3175B稠密22-11 ChatGPT175B稠密23-03 GPT-42万亿稀疏23-11 GPT-4 Turbo长序列+多模态24H1 GPT-5（预计）10万亿稀疏+多模

3、态23-02 LLaMA33B/65B稠密24H1 LLAMA3（预计）万亿稀疏+多模态预训练（70%）：百亿/千亿稠密为主微调（30%）：百亿稠密模型预训练（50%）:千亿稠密+多模态预训练（30%):万亿稀疏+多模态微调（20%):百亿稠密模型23-07 LLaMA27B/13B/70B稠密Google22-04 PaLM540B稠密23-05 PaLM2340B稠密23-12 Gemini5万亿稀疏+原生多模态LLM大模型的发展趋势超大参数使得推理必须依赖多卡、多节点并行，严重受制于带宽。庞大的参数规模，推理过程中需要大量的计算和内存资源。例如，700亿参数量的LLaMA-2-70B模型

4、进行推理需要至少6张RTX 3090Ti GPU或2张NVIDIA的A100 GPU高端硬件的限制。超大模型参数、超长序列等是大模型的发展趋势，大计算和内存需求高。挑战二：延迟和吞吐量NNNNNNNNNN缓存Decode阶段Prefill阶段batchseq小迭代多步不同请求输入长度不同batchseq大不同用户请求输出长度不同迭代步数多的请求时延长每token串行02时延决定用户体验，吞吐衡量系统成本自回归算力利用率低，低时延高吞吐难以兼顾Prefill和Decode两阶段推理差异大，难以充分利用算力资源基于request的调度导致大量算力空闲：同batch序列长度差异大。不同阶段的请求难

5、以batch：prefill/decode输入、kvcache维度差别大 Decode阶段每token串行解码算力利用率低串行解码以GEMV为主，计算访存比低 KVCache访存量随序列长度增长，Attention占比增加。LLM 的推理过程1.Tokenize(将文本转换为向量)2.Computing(模型推理)3.Detokenize(将向量转换为文本)4.Sampling(依据推理结果进行采样)时延，是指用户从发出请求到收到完整响应所需的时间，首token时延，decoder时延（单个请求）。吞吐，它表示系统单位时间内处理的请求数量（整个系统）。挑战三：从单模态到多模态，再到OpenA

6、I o1，推理成本进一步增加大模型应用场景走向多元化，从单模态到多模态，再到音视频。音视频都具有长序列特性，使得计算量和显存进一步增加，导致推理成本增长。OpenAI o1是经过强化学习训练来执行复杂推理任务的新型语言模型，其内部很长的思维链路（COT），会要求更新的计算量，推理的时间也进一步会拉长。Sora FLOPS更高OpenAI o1更强数学和编码逻辑能力大模型推理加速技术发展现状PART2大模型推理加速技术针对这些挑战，学术界和工业界提出了很多大模型的推理加速技术。在实际业务场景中，通过从各个层面对推理的加速，极大提升了大模型的推理能力。算法层优化算子层优化利用算子加速库如ONNX

张君-大模型推理加速的优化实践.pdf

相关报告