当前位置:首页 > 报告详情

陈文光-国产平台上训练大模型的系统挑战-osatc.pdf

上传人: 张** 编号:159590 2024-04-05 31页 2.91MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了国产智能算力训练大模型的经验与教训。核心数据包括:新神威计算机训练174T参数的MOE大模型,鹏城云脑II训练2000亿参数的稠密模型。关键点如下: 1. 大模型训练的计算特征:以Transformer模型为核心,计算主要集中在嵌入层、注意力层和前馈网络。 2. 国产平台介绍:新神威计算机和鹏城云脑II。新神威计算机采用片上异构众核处理器,双精度算力1:4,整机超过10万处理器。鹏城云脑II为E级智算平台,拥有4096个昇腾910 (NPU)和2048个鲲鹏920 (CPU)。 3. 系统挑战:算子实现、并行策略选取、容错。国产系统在算子库实现方面有突破,如新神威的swTensor算子库。并行策略方面,通用的有数据并行、张量并行、流水并行,针对特定模型的有专家并行(MOE)。 4. 容错:短期采用checkpoint,长期学习spark的容错机制。新神威的IO子系统Comm.在数据并行的节点间自动容错。 5. 经验与教训:BF16精度非常重要,在千亿模型和长上下文窗口时,FP16精度不足。国产系统可以训练大模型,但仍有局限,主要差距在单芯片的峰值算力上。通过软件优化可以缓解但无法完全弥补差距。
"国产智能算力训练大模型的经验与教训"有哪些亮点和不足? 如何优化大模型训练中的并行策略和容错机制? 国产平台与国外超算在大模型训练方面有哪些差距与潜力?
客服
商务合作
小程序
服务号
折叠