当前位置:首页 > 报告详情

会议13_在 MPI 中设计网络内计算感知缩减集合.pdf

上传人: Ch****l 编号:171254 2024-07-03 33页 1.86MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了在MPI中设计网络计算感知的减少集合的方法。主要内容包括: 1. 背景介绍:现代高性能计算集群架构的驱动因素,包括多核/众核技术、远程直接内存访问(RDMA)网络、固态硬盘(SSD)、非易失性随机访问内存(NVRAM)、NVMe-SSD以及加速器(如NVIDIA GPGPU)。 2. 动机:减少集合(如MPI_Allreduce)在HPC和AI中非常重要,涉及计算和通信。使用CPU进行所有操作会导致扩展效率低下,因此需要将常见操作卸载到网络设备,如交换机。 3. 问题陈述和贡献:提出了一种算法,用于大型消息的AllReduce,该算法克服了SHARP运行时中的瓶颈和资源限制,通过高效利用节点和网络级资源。 4. 设计:包括注册缓存设计和提出的AllReduce设计。使用注册缓存来摊销SHARP运行时中的注册成本,并设计了一个基于领导者的算法,使用流聚合进行大型消息减少。 5. 结果:实验结果表明,该设计在某些情况下比现有技术高出86%的性能。 6. 结论和未来工作:该设计克服了各种瓶颈,通过使用基于领导者的算法和流聚合进行大型消息减少,优于现有技术。未来工作包括全面应用评估、在更大规模上的性能评估以及探索NUMA感知。
如何设计高效的大消息MPI_Allreduce算法? 如何在MPI中实现网络计算感知的大消息减少集合? 如何在MPI中利用SHARP和单份方案的优势实现大消息减少?
客服
商务合作
小程序
服务号
折叠