当前位置:首页 > 报告详情

刘松伟-AIGC模型的量化和稀疏优化.pdf

上传人: 哆哆 编号:630899 2025-04-19 41页 13.46MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了字节跳动ByteNN团队高级工程师刘松伟在AIGC模型优化和推理加速方面的研究成果。刘松伟硕士毕业于浙江大学,研究领域聚焦深度学习算法的全栈优化,涵盖模型优化和N卡推理优化。他在ByteNN团队负责模型优化,通过推理引擎和模型层面的协同优化,降低LLM/SD模型的云端推理成本,推动AIGC模型的端侧落地。 关键点如下: 1. 刘松伟负责的服务端稀疏加速和LLM推理优化能力建设,支持豆包视觉多模态大模型项目的推理优化。 2. 他在ByteNN团队负责模型优化,致力于通过推理引擎和模型层面的协同优化,降低LLM/SD模型的云端推理成本。 3. 刘松伟提出了全链路优化方法,通过算法训练、模型优化和多端推理优化等手段,解决大模型算力问题。 4. 他研究了量化稀疏优化技术,通过量化稀疏结构蒸馏、并行算子优化等方法,提高AIGC模型的推理速度和效率。 5. 刘松伟还研究了稀疏加速技术,通过Self-Attention稀疏和GEMM稀疏等方法,缓解注意力计算的内存瓶颈,加速稀疏计算。 6. 他提出了ABQ-LLM任意位宽组合推理解决方案,基于BMMA重构量化矩阵乘,消除Decoding过程中的GEMV问题,实现高效计算流水和自动 kernel search。 7. 刘松伟的研究成果在多个领域取得了显著性能收益,如在EVA-VIT和FLUX模型上的稀疏加速实验,以及在LLM模型上的量化优化。 综上所述,刘松伟在AIGC模型优化和推理加速方面取得了重要研究成果,通过全链路优化、量化稀疏优化和稀疏加速等技术,有效降低了LLM/SD模型的云端推理成本,并推动了AIGC模型在端侧的落地。
"如何通过量化稀疏优化AIGC模型?" "AIGC模型量化和稀疏优化的未来展望是什么?" "在AIGC时代,如何解决有限的算力与无限需求之间的矛盾?"
客服
商务合作
小程序
服务号
折叠