当前位置:首页 > 报告详情

下一代MTIA元推荐推理加速器.pdf

上传人: c** 编号:465022 2025-01-12 27页 1.33MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了一种名为Next Gen MTIA的推荐推理加速器,由Mahesh Maddury等人研发。该加速器采用TSMC 5nm技术,拥有2.35B个门和103M个浮点运算能力。其特点包括支持PyTorch eager模式、基于硬件的整数动态量化、GEN-O-GEN性能提升、稀疏矩阵支持等。加速器具有354个GEMM TOPs(INT8),177个GEMM TOPs(FP16),并且在稀疏模式下,这一数字翻倍。其内存为128GB LPDDR5,带宽为204.8GB/s。该加速器旨在提高性能与能效比,处理模型跨多个Meta服务的问题,以及提高开发者效率。其架构包括8x8网格的处理元素、控制子系统和主机接口、256MB的片上SRAM、16通道的LPDDR5内存等。Next Gen MTIA已经在数据中心部署,并取得了超过2倍的性能提升。
"Next Gen MTIA如何提升模型推理性能?" "深度学习推荐模型的发展趋势是什么?" "如何通过硬件解压缩引擎优化大型嵌入式索引处理?"
客服
商务合作
小程序
服务号
折叠