当前位置:首页 > 报告详情

华为:2025大模型训练精度问题定位案例(31页).pdf

上传人: s**** 编号:712703 2025-06-11 31页 3.56MB

下载:

1、MindStudio8.0.RC1大模型训练精度问题定位案例大模型训练精度问题定位案例文档版本文档版本01发布日期发布日期2025-05-29华为技术有限公司华为技术有限公司 版权所有版权所有 华为技术有限公司华为技术有限公司 2025。保留一切权利。保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购

2、买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。文档版本 01(2025-05-29)版权所有 华为技术有限公司i 安全声明安全声明 产品生命周期政策产品生命周期政策华为公司对产品生命周期的规定以“产品生命周期终止政策”为准,该政策的详细内容请参见如下网址:https:/ 漏洞处理流程漏洞处理流程华为公司对产品漏洞管理的规定以“漏洞处理流程”为准,该流程的详细内容请参见如下网址:https:/ 华为初始证书

3、权责说明华为初始证书权责说明华为公司对随设备出厂的初始数字证书,发布了“华为设备初始数字证书权责说明”,该说明的详细内容请参见如下网址:https:/ 华为企业业务最终用户许可协议华为企业业务最终用户许可协议(EULA)本最终用户许可协议是最终用户(个人、公司或其他任何实体)与华为公司就华为软件的使用所缔结的协议。最终用户对华为软件的使用受本协议约束,该协议的详细内容请参见如下网址:https:/ 产品资料生命周期策略产品资料生命周期策略华为公司针对随产品版本发布的售后客户资料(产品资料),发布了“产品资料生命周期策略”,该策略的详细内容请参见如下网址:https:/ 文档版本 01(2025

4、-05-29)版权所有 华为技术有限公司ii目目 录录1 精度问题概述和场景精度问题概述和场景.12 问题定位方法问题定位方法.32.1 精度问题定位流程.32.2 Checklist 检查.42.3 问题复现.42.4 精度问题分场景定位.52.5 特殊情况排查.62.6 硬件压测.63 精度定位案例精度定位案例.73.1 Checklist 不一致案例.73.1.1 配置项不一致.73.1.2 读取数据不一致.73.1.3 模型结构不一致.93.2 确定性计算案例.113.3 msprobe 工具定位案例.143.3.1 首 step loss 不一致(或同权重推理不一致).143.3.2

5、 长稳训练 loss 不一致,前期对齐,后期差异变大.163.3.3 溢出或 NaN 问题.183.4 特殊情况排查案例.253.5 硬件压测案例.25MindStudio大模型训练精度问题定位案例目 录文档版本 01(2025-05-29)版权所有 华为技术有限公司iii1 精度问题概述和场景精度问题概述和场景随着大语言模型技术的迅速发展,尤其是在诸如ChatGPT、DeepSeek等应用的引领下,大模型迅速成为AI界热点。大模型训练需要强大的算力支撑,涉及数据、模型、框架、算子、硬件等诸多环节。由于规模巨大,训练过程复杂,经常出现精度问题。训练精度问题是多种因素共同作用的结果。主要表现为训

6、练收敛不及预期,如loss起飞、毛刺、NaN、下游任务评测效果变差等。训练精度场景可分为有标杆和无标杆训练精度场景可分为有标杆和无标杆2类。类。有标杆对应迁移场景,即用户将原本在标杆(如GPU、其他训练框架)上训练的大语言模型或者其他类型深度神经网络的训练迁移到NPU上进行训练。无标杆对应原生开发场景,即用户直接在NPU上进行模型搭建及训练。其中,本文聚焦主流的有标杆迁移场景,主要表现为NPU训练过程和结果与标杆(GPU或NPU的其他框架)上的训练过程和结果不一致且偏差超过容忍阈值,我们称之为不对齐。该场景具体可再细分为以下几类现象:首首step差异差异,即第0步或前几步loss就已与标杆相比

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了大模型训练中精度问题的定位方法和案例。关键点如下: 1. **精度问题概述**:大模型训练中常见的精度问题包括首步loss差异、长稳训练loss差异、溢出或NaN等。这些问题可能由多种因素引起。 2. **定位方法**:定位精度问题的一般流程包括Checklist检查、问题复现、精度问题分场景定位、特殊情况排查和硬件压测。 3. **Checklist检查**:检查配置项、输入数据、模型结构、权重初始化等,确保与标杆系统一致。 4. **问题复现**:固定随机性,打开确定性计算,确保问题可复现。 5. **精度问题分场景定位**:根据不同场景选择合适的工具和方法进行定位。 6. **特殊情况排查**:开启流同步、关闭特定算子等,排查并行计算和内存踩踏等问题。 7. **硬件压测**:通过模型压测和命令压测,排查硬件故障节点。 8. **定位案例**:提供了Checklist不一致、确定性计算、msprobe工具定位、特殊情况排查和硬件压测等典型案例。 9. **结果**:通过定位和修复,使NPU训练精度与标杆系统对齐。
大模型训练精度问题如何定位? msprobe工具如何使用? 硬件压测如何进行?
客服
商务合作
小程序
服务号
折叠