当前位置:首页 > 报告详情

ACF-S:AI计算结构中高性能数据移动的新方法.pdf

上传人: 芦苇 编号:651448 2025-05-01 20页 1.39MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了一种名为ACF-S的新型数据传输方法,旨在提高人工智能计算织物中的高性能数据移动。ACF-S由Enfabrica公司开发,其关键特性包括: 1. scale-up和scale-out的统一:ACF-S旨在将大规模计算(scale-up)与分布式计算(scale-out)结合起来,提供统一的解决方案。 2. 通信协议的集成:通信协议 deeply embedded in the processor,使得通信透明化。 3. 内存系统:采用fully coherent memory system,通过sharding computation实现大规模问题的处理。 4. 网络结构:提出了logically Rail Switched 2-Tier CLOS Network结构,以降低延迟和提高网络的弹性。 5. 性能提升:ACF-S能够显著提高GPU集群的性能,例如,在65,536个GPU的集群中,HFU(硬件FLOPs利用率)预计将高于典型的LLM MFU(模型FLOPs利用率)。 6. 硬件创新:ACF-S解决方案包括world’s first megaNIC chip,该芯片具有8-Tbps的acf-s速率,32 lanes x 112GbE,以及高容量的PCIe。 7. 软件与硬件的解耦:通过软件定义的传输和拥塞控制,ACF-S提供了适应工作负载和避免硬编码基础设施到当前模型的能力。 Enfabrica公司提出的ACF-S技术,旨在为AI计算提供高效、可扩展的数据传输解决方案,通过硬件和软件的创新,实现高性能计算与大规模分布式计算的有机结合。
"AI计算织物中的ACF-S技术是什么?" "如何通过ACF-S技术优化AI系统的性能?" "ACF-S技术在未来的AI计算领域有哪些应用前景?"
客服
商务合作
小程序
服务号
折叠