当前位置:首页 > 报告详情

6375 - Challenges in implementing AI-ML training job recovery from GPUAccelerator data poisoning events.pdf

上传人: 芦苇 编号:651457 2025-05-01 15页 2.09MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文探讨了在使用大规模AI/ML训练集群时,GPU/加速器数据中毒导致训练作业中断的挑战。文中提到,在Meta的Grand Teton Training Platform上,一个16K GPU集群在54天的训练期间经历了419次作业中断,平均约每3小时发生一次。数据中毒问题随着集群规模扩大而加剧,例如,一个128K GPU集群预计每23分钟就会有一次中断。文章指出,硬件故障,特别是GPU/加速器内存中的未校正错误(UCE),是导致作业中断的主要原因。 为了减少这种类型的中断,文章提出了一系列的解决方案,包括:1) 在GPU上采用更先进的错误检测和恢复技术(如On-die ECC和ECS);2) 优化数据处理流程,以减少UCE的影响;3) 使用预发和反应性方法,如 Patrol Scrub和SOC/SW Fatal Error Handling,来最小化作业中断;4) 参与OCP社区的相关项目组,如Hardware Fault Management sub-project,以共同开发解决方案。 总之,文章强调了开发健壮的RAS(Recovery and Availability Services)技术来降低AI/ML训练作业中断率的重要性,并鼓励社区成员加入相关项目组,共同改进大型训练集群的可靠性。
"如何降低AI/ML训练作业中断率?" "OCP加速器模块(OAM)中的错误检测和恢复技术如何工作?" "加入OCP硬件故障管理子项目组,我能做些什么?"
客服
商务合作
小程序
服务号
折叠