当前位置:首页 > 报告详情

华为:2025大模型训练精度问题定位案例(31页).pdf

上传人: s**** 编号:712703 2025-06-11 31页 3.56MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了大模型训练中精度问题的定位方法和案例。关键点如下: 1. **精度问题概述**:大模型训练中常见的精度问题包括首步loss差异、长稳训练loss差异、溢出或NaN等。这些问题可能由多种因素引起。 2. **定位方法**:定位精度问题的一般流程包括Checklist检查、问题复现、精度问题分场景定位、特殊情况排查和硬件压测。 3. **Checklist检查**:检查配置项、输入数据、模型结构、权重初始化等,确保与标杆系统一致。 4. **问题复现**:固定随机性,打开确定性计算,确保问题可复现。 5. **精度问题分场景定位**:根据不同场景选择合适的工具和方法进行定位。 6. **特殊情况排查**:开启流同步、关闭特定算子等,排查并行计算和内存踩踏等问题。 7. **硬件压测**:通过模型压测和命令压测,排查硬件故障节点。 8. **定位案例**:提供了Checklist不一致、确定性计算、msprobe工具定位、特殊情况排查和硬件压测等典型案例。 9. **结果**:通过定位和修复,使NPU训练精度与标杆系统对齐。
大模型训练精度问题如何定位? msprobe工具如何使用? 硬件压测如何进行?
客服
商务合作
小程序
服务号
折叠