当前位置:首页 > 报告详情

当大模型推理遇到算力瓶颈如何进行工程优化?-李谋.pdf

上传人: 张** 编号:164032 2024-05-31 40页 7.37MB

1、当大模型推理遇到算力瓶颈,如何进行工程优化零一万物资深算法专家李谋Your Title/A Subtitle HereAlternate Intro Slide目录1)大语言模型算力需求及当前增长趋势大语言模型算力需求及当前增长趋势2)大模型结构特征,与传统模型的差异大模型结构特征,与传统模型的差异3)大模型推理加速挑战与大模型推理加速挑战与难点难点4)零一万物模型推理服务优化技术零一万物模型推理服务优化技术5)大模型应用场景与业务落地探讨大模型应用场景与业务落地探讨1 大语言模型算力需求及增长趋势推理成本优化推动应用爆发 未来推理服务在24个月成本继续优化500倍+的速度,会更进一步增加应用

2、的爆发与推理服务对算力的需求模型越来越大 GPT5的参数量将会达到10万亿级别 业界大模型将进入500亿参数的规模多模态爆发 对数据量与算力会有更大规模需求的增长 Meta最近的算力需求(35万片H100)反映了多模态对算力几何级数增长的效应垂类大模型兴起 自动驾驶、视频、电商、量化、游戏等垂类客户开始进入企业模型的训练阶段ADBC大模型发展趋势算力需求 指数级增长深度学习时代,每4-6个月翻倍大模型时代,每2-3个月翻倍ChatGPT发布2030年相比2020年通用算力增长10倍,专用算力增长500倍机器学习时代,每2年翻倍2 大模型结构特征与传统模型差异大语言模型 vs 传统模型开发环境-

3、动态图生产环境-静态图+图融合 网络结构复杂 参数较少 所有输入计算流程一致 DAG有向无环大语言模型 vs 传统模型 结构简单,Transformer Block串联 参数很多 千亿,万亿,十万亿规模 不同输入计算流程不一样 循环结构,自回归3 大模型推理加速挑战与难点大模型推理加速挑战与难点计算量计算量参数量参数量使用成本使用成本局部局部电力电力算力内存集群能源推理服务降本增效推理降本增效提供服务吞吐减少硬件成本GPU降价减少GPU数量降低延时增大并发优化显存target:max(throughput)while latency MLP先做列切分,再做先做列切分,再做行切分行切分每一层每一

4、层2次次AllReduce多机张量并行节点内节点内:NVLINK节点间节点间:Infiniband/RoCE张量并行适合节点内张量并行适合节点内跨节点跨节点TP扩展性下降扩展性下降明显明显Context Parallism+Tensor ParallismPrompt Cache(ref:RadixAttention)Prompt Cache(ref:RadixAttention)k_cache_ptrv_cache_ptr.你好,早上好k_cache_ptrv_cache_ptr你好,k_cache_ptrv_cache_ptr你好,我来自浙江k_cache_ptrv_cache_ptr你好

5、,我来自浙江杭州k_cache_ptrv_cache_ptr你是谁?你是谁你好,我来自浙江早上好杭州LRU poolRadixTree利用数据结构保存每个前缀对应的kv_cache5 大模型业务场景与落地应用探讨大模型业务场景与落地应用Base ModelChat ModelApplicationsAPIUsersSFT&RL语言语言大大模型模型图像图像大大模型模型多模态多模态大模型大模型 基础大模型基础大模型 L0 行业大模型行业大模型 L1 垂类大模型垂类大模型 L2帮我用英文写封感谢信Syntax:ModuleNotFoundError:No module named numpy三体里叶文洁是如何认识伊文斯的?比较一下两幅图的不同之处帮我做一份以”和平”为主题的PPT大模型业务场景与落地应用总结LLM推理加速大模型落地应用 github huggingface modelscope wisemodelSpeculative Decoding小模型预测,大模型验证,验证过程小模型预测,大模型验证,验证过程是并行计算。是并行计算。最好情况最好情况 vs 最坏最坏情况情况

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大模型推理在遇到算力瓶颈时如何进行工程优化。随着大模型如GPT5的参数量达到10万亿级别,以及多模态的应用,算力需求呈现指数级增长。文章对比了大语言模型与传统模型的结构特征和开发环境,指出大模型结构复杂,参数众多,且计算流程不一致。在面临推理加速挑战时,文章提出了一系列优化技术,包括在线服务的容错检查、负载分流、服务发现和动态扩缩,以及DAG算子编排等。特别地,零一万物模型推理服务优化技术通过投机采样、CUDA Graph、LoRA算子优化和量化等技术降低成本和提高效率。此外,文章还讨论了大模型在各个业务场景的应用,如聊天模型、图像模型和多模态模型等,并提出了LLM推理加速的概念。总的来说,文章针对大模型推理的挑战和难点,提出了一系列的优化技术和应用场景,以推动大模型在各个领域的落地应用。
"大模型推理如何突破算力瓶颈?" "如何优化大模型在线推理服务?" "大模型在不同领域的应用场景有哪些?"
客服
商务合作
小程序
服务号
折叠