《华为:2025大模型训练精度问题定位案例(31页).pdf》由会员分享,可在线阅读,更多相关《华为:2025大模型训练精度问题定位案例(31页).pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、MindStudio8.0.RC1大模型训练精度问题定位案例大模型训练精度问题定位案例文档版本文档版本01发布日期发布日期2025-05-29华为技术有限公司华为技术有限公司 版权所有版权所有 华为技术有限公司华为技术有限公司 2025。保留一切权利。保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购
2、买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。文档版本 01(2025-05-29)版权所有 华为技术有限公司i 安全声明安全声明 产品生命周期政策产品生命周期政策华为公司对产品生命周期的规定以“产品生命周期终止政策”为准,该政策的详细内容请参见如下网址:https:/ 漏洞处理流程漏洞处理流程华为公司对产品漏洞管理的规定以“漏洞处理流程”为准,该流程的详细内容请参见如下网址:https:/ 华为初始证书
3、权责说明华为初始证书权责说明华为公司对随设备出厂的初始数字证书,发布了“华为设备初始数字证书权责说明”,该说明的详细内容请参见如下网址:https:/ 华为企业业务最终用户许可协议华为企业业务最终用户许可协议(EULA)本最终用户许可协议是最终用户(个人、公司或其他任何实体)与华为公司就华为软件的使用所缔结的协议。最终用户对华为软件的使用受本协议约束,该协议的详细内容请参见如下网址:https:/ 产品资料生命周期策略产品资料生命周期策略华为公司针对随产品版本发布的售后客户资料(产品资料),发布了“产品资料生命周期策略”,该策略的详细内容请参见如下网址:https:/ 文档版本 01(2025
4、-05-29)版权所有 华为技术有限公司ii目目 录录1 精度问题概述和场景精度问题概述和场景.12 问题定位方法问题定位方法.32.1 精度问题定位流程.32.2 Checklist 检查.42.3 问题复现.42.4 精度问题分场景定位.52.5 特殊情况排查.62.6 硬件压测.63 精度定位案例精度定位案例.73.1 Checklist 不一致案例.73.1.1 配置项不一致.73.1.2 读取数据不一致.73.1.3 模型结构不一致.93.2 确定性计算案例.113.3 msprobe 工具定位案例.143.3.1 首 step loss 不一致(或同权重推理不一致).143.3.2
5、 长稳训练 loss 不一致,前期对齐,后期差异变大.163.3.3 溢出或 NaN 问题.183.4 特殊情况排查案例.253.5 硬件压测案例.25MindStudio大模型训练精度问题定位案例目 录文档版本 01(2025-05-29)版权所有 华为技术有限公司iii1 精度问题概述和场景精度问题概述和场景随着大语言模型技术的迅速发展,尤其是在诸如ChatGPT、DeepSeek等应用的引领下,大模型迅速成为AI界热点。大模型训练需要强大的算力支撑,涉及数据、模型、框架、算子、硬件等诸多环节。由于规模巨大,训练过程复杂,经常出现精度问题。训练精度问题是多种因素共同作用的结果。主要表现为训
6、练收敛不及预期,如loss起飞、毛刺、NaN、下游任务评测效果变差等。训练精度场景可分为有标杆和无标杆训练精度场景可分为有标杆和无标杆2类。类。有标杆对应迁移场景,即用户将原本在标杆(如GPU、其他训练框架)上训练的大语言模型或者其他类型深度神经网络的训练迁移到NPU上进行训练。无标杆对应原生开发场景,即用户直接在NPU上进行模型搭建及训练。其中,本文聚焦主流的有标杆迁移场景,主要表现为NPU训练过程和结果与标杆(GPU或NPU的其他框架)上的训练过程和结果不一致且偏差超过容忍阈值,我们称之为不对齐。该场景具体可再细分为以下几类现象:首首step差异差异,即第0步或前几步loss就已与标杆相比