当前位置:首页 > 报告详情

张辰-摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索.pdf

上传人: 哆哆 编号:631164 2025-04-19 27页 12.52MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了摩尔线程公司资深算法工程师张辰在ML-Summit会议上的演讲内容。张辰分享了摩尔线程全功能GPU大规模语言模型分布式训练性能优化的探索。主要内容包括:MT Megatron团队的歷史性能、支持各种训练策略、FP8混合精度训练、性能优化、DeepSeek性能优化、损失对齐、性能评估和自动并行化。他还讨论了基于算法洞察的混合精度设计、基于精确内存分析的选择性重计算等优化方法。最后,他提到了硬件、软件、基础设施和算法协同设计的重要性,以提高比特利用率、增强准确性、减少块的数量并提高效率。
"摩尔线程如何优化大规模语言模型训练性能?" 模型是如何实现设备限制和路由优化的?" 未来发展趋势如何?"
客服
商务合作
小程序
服务号
折叠