当前位置:首页 > 报告详情

NVIDIA 的 BERT 量化方法与工具.pdf

上传人: li 编号:29479 2021-02-07 54页 1.17MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了FasterTransformer 3.0编码器中INT8量化的原理和策略,以及如何使用cuBLASLt和INT8张量核来加速实现。主要内容包括: 1. INT8量化的基本概念和策略,包括对称和非对称量化,以及按张量和按通道量化。 2. 量化方法,包括后训练量化(PTQ)和量化感知训练(QAT),以及不同的校准方法,如最大值校准器、均方误差校准器和熵校准器。 3. 量化工作流程和网络结构,包括插入量化节点、加载微调权重、进行校准等步骤。 4. 量化节点的实现细节,包括收集最小/最大值或直方图统计数据、计算阈值值等。 5. 不同量化策略和校准算法下的准确性和性能比较。 通过这些内容,本文展示了如何有效地实现BERT模型的INT8量化,以提高推理速度和降低计算资源消耗。
如何使用FasterTransformer 3.0进行BERT的INT8量化? INT8量化对BERT模型的准确性和性能有何影响? 如何在BERT量化中选择合适的量化策略和校准算法?
客服
商务合作
小程序
服务号
折叠