当前位置:首页 > 报告详情

GPU Tensor Core 上大型语言模型的高效任意精度加速.pdf

上传人: 芦苇 编号:651799 2025-05-01 44页 3.12MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了在GPU Tensor Cores上为大型语言模型(LLM)实现高效任意精度加速的方法。主要内容包括: 1. 背景与动机:随着LLM模型规模的增大,存储和推理计算需求增加,模型量化是一种有效的解决方案。然而,GPU和Tensor Core对数据格式的支持有限,与量化后的数据格式不匹配。 2. 工作内容:提出了一种新的数据格式Bipolar-INT,通过位级矩阵乘法重构实现任意精度矩阵乘法,并设计了矩阵分解与重组策略以及面向恢复的内存调度方法。 3. 实验结果:与NVIDIA CUTLASS相比,实现了5.5倍的加速;与现有解决方案相比,实现了44倍的加速;与FP16相比,模型推理速度提高了3.9-6.7倍;与量化模型和CUTLASS内核相比,推理速度提高了1.2-2倍。 4. 结论:提出的方法为LLM在GPU Tensor Cores上实现了高效任意精度加速,显著提高了模型推理速度。
如何在GPU上实现任意精度矩阵乘法加速? 如何通过数据格式转换提高GPU矩阵乘法效率? 如何优化GPU内存管理以加速大语言模型推理?
客服
商务合作
小程序
服务号
折叠