当前位置:首页 > 报告详情

SESSION 23 AI-Accelerators.pdf

上传人: 张** 编号:620891 2025-03-31 417页 29.07MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了T-REX,一种基于16nm FinFET技术的Transformer加速器。T-REX通过分解训练方法、外部数据压缩、动态批处理和双向可访问寄存器文件等算法方法,实现了显著的能耗和硬件利用率提升。具体来说,分解训练方法通过层间共享参数,将外部内存访问(EMA)减少了8.5-10.7倍。外部数据压缩进一步将EMA减少了2.1-2.9倍。动态批处理和双向可访问寄存器文件分别将EMA和硬件利用率提高了1-3.3倍和1.1-1.2倍。总体而言,T-REX实现了32-66倍的EMA减少和1.2-3.7倍的硬件利用率提升,在系统层面上,性能和能效分别达到了68-567μs/token和0.4-3.95μJ/token。
T-REX如何减少外部内存访问? 动态批处理技术如何提高T-REX的效率? T-REX如何通过双方向访问寄存器文件提高利用率?
客服
商务合作
小程序
服务号
折叠