当前位置:首页 > 报告详情

Session 14Compute-in-Memory.pdf

上传人: 张** 编号:620816 2025-03-31 23页 55.31MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
计算存储(Compute-in-Memory,CIM)架构通过将计算操作集成到内存阵列中,消除了传统冯·诺依曼体系结构中的内存访问瓶颈,从而减少了内存访问延迟和数据移动开销。CIM设计创新不断改进能源和面积效率,同时保持整体AI网络的准确性。本会议包括7篇论文,展示了gain-cell、SRAM和非易失性CIM的最新发展。 本会议包括7篇论文,展示了gain-cell、SRAM和非易失性CIM的最新发展。主要创新包括首次展示微缩数据格式和基于STT-MRAM的贝叶斯神经网络。 在第一篇论文中,国立清华大学和台积电展示了用于噪声容忍贝叶斯神经网络的STT-MRAM CIM宏,该宏采用异构的内存内和近内存乘法累加(MAC)结构。22nm宏在CIFAR-100上实现了104.5TOPS/W,精度损失仅为0.03%。 在第二篇论文中,台积电和国立清华大学展示了首个展示微缩数据格式的CIM宏,在16nm工艺中实现了133.5TFLOPS/W。 在第三篇论文中,东南大学提出了一种28nm浮点宏,该宏采用自适应对齐方案和非2的补码MAC,实现了62.84TFLOPS/W。 在第四篇论文中,东南大学提出了一种混合CIM宏,该宏实现了位旋转特征输入方案,以有效地在数字和模拟域之间分配计算资源。该宏在28nm CMOS中实现了67.8TOPS/W的INT8操作。 在第五篇论文中,东南大学提出了一种模仿路径搜索CIM宏,展示了双向搜索以实现3670M节点/秒的搜索速率和每个节点的69.4fJ能量消耗。 在第六篇论文中,中国科学院微电子研究所展示了针对浮点训练和推理的数字转置CIM宏;它实现了28nm CMOS中48.08TFLOPS/W和2.34TFLOPS/mm2的BF16操作。 在第七篇论文中,清华大学提出了一种CIM宏,该宏针对具有静态/动态稀疏感知的复合AI模型进行优化,通过后CIM校准减少误差率。28nm宏在FP16操作中实现了51.6TFLOPS/W。
计算内存储存技术如何提高AI性能? 微缩数据格式如何优化内存计算效率? 混合精度计算如何实现边缘AI的准确性和能效?
客服
商务合作
小程序
服务号
折叠