当前位置:首页 > 报告详情

SambaNova SN40L RDU:突破万亿+参数规模Gen AI计算的壁垒.pdf

上传人: c** 编号:465014 2025-01-12 24页 1.30MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
SambaNova Systems 推出了 SN40L,一种新的语言优化的 Reconfigurable Dataflow Unit (RDU),旨在突破万亿参数规模的生成式 AI 计算障碍。SN40L 采用 "Cerulean" 架构,具有 1.5 TB 的高容量内存,5nm TSMC 制程的 3 层数据流内存,包含 1040 个 RDU 核心和 64 GB 的高带宽内存。该单元支持高吞吐量推理,具有低延迟模型切换功能,例如在 8B 版本的 llama 模型上小于 0.01 秒。RDU 的高带宽内存和片上 SRAM 支持数据流,而 3 层内存系统(含 SRAM, HBM, 和 DDR)为数据流提供了大量的存储。SN40L 还具有 638 TFLOPS 的计算性能和片上控制单元,以及用于图计算的 AGCU 端口。其 RDU 单元级互联采用 3 个物理网络,支持向量、标量和控制数据类型,具有交叉车道减少树和尾阶段功能。SN40L 能够高效执行 Transformer 模型,通过硬件图形编排实现时间融合,减少了操作融合的开销,提高了数据局部性,并通过片上数据流优化了循环转换。该技术能够在 16 个 SN40L 芯片上以 1100 tokens/s 的速度执行 7B 版本的 llama 模型。与 GPU 相比,SN40L 提供了更低的模型托管和切换成本,更小的机 footprint,以及更高的速度。
"SambaNova SN40L如何突破万亿参数规模?" "SN40L芯片的‘Cerulean’架构有何特别之处?" "使用SN40L RDU进行生成式AI训练和推理的优势是什么?"
客服
商务合作
小程序
服务号
折叠