当前位置:首页 > 报告详情

陈龙-CUTLASS跨平台编译与优化.pdf

上传人: 哆哆 编号:630929 2025-04-19 34页 7.61MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了中科加禾科技有限公司的CTO陈龙博士在编译技术、并行计算及异构计算领域的研究和应用。陈龙博士曾在华为担任编译器与编程语言实验室架构师,主导多项国产化芯片的编译器产品开发。2023年,陈龙博士联合创办中科加禾科技有限公司,致力于解决国产AI算力落地应用所面临的困难。中科加禾通过全系统优化、编译技术及工具加持,提供大模型推理及微调系统工具,为国产AI算力加速落地提供帮助。 文章还详细介绍了CUTLASS(CUDA Templates for Linear Algebra Subroutines)跨平台编译优化实践,包括CUTLASS的简要介绍、在A架构上的编译和优化、以及CUTLASS优化若干优化点分享。CUTLASS是基于现代C++实现的、面向GPU的矩阵计算加速库,具有良好的抽象、丰富的优化,开放开源。 最后,文章展示了CUTLASS在移植和优化方面的一些改进,包括指令择优、访存优化、对齐优化、边界检查优化、循环展开、别名分析和指令调度等,使得CUTLASS在A架构上的性能达到了Blas库性能的108%。
矩阵乘法在深度学习中的重要性是什么? CUTLASS如何优化矩阵乘法性能? CUTLASS在A架构上的编译和优化策略是什么?
客服
商务合作
小程序
服务号
折叠