当前位置:首页 > 报告详情

基于 Tensor Core 的 CNN INT8 定点训练加速.pdf

上传人: li 编号:29536 2021-02-07 24页 849.08KB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了基于Tensor Core的CNN INT8定点训练加速技术。作者首先介绍了INT8训练量化与反量化、Tensor Core INT8 Implicit GEMM卷积实现方法,然后通过实验结果展示了FP32、FP16、INT8在卷积神经网络前向和反向传播中的性能比较。实验表明,在ImageNet数据集上,INT8训练端到端性能相比FP16提升18%,且AlexNet、ResNet-18/34/50、Inception V3、VGG-16等模型在INT8训练下的Top1精度基本无损。此外,文章还讨论了Tiled GEMM、Warp Tile、Bank Conflict Free ldmatrix等优化技术,以及 ConvBackwardWeightX、ConvBackwardData 等算法的实现。最后,作者提出了异构计算、分布式系统、训练/推理引擎等方面的招聘信息。
如何实现Tensor Core的INT8定点训练? CNN INT8训练量化与反量化具体操作是什么? Tensor Core INT8 Implicit GEMM卷积实现方法有哪些优势?
客服
商务合作
小程序
服务号
折叠