张辰-摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索.pdf

编号:631164 PDF 27页 12.52MB 下载积分:VIP专享
下载报告请您先登录!

张辰-摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索.pdf

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit张张辰辰 摩摩尔尔线线程程资资深深算算法法工工程程师师,前前腾腾讯讯高高级级算算法法研研究究员员负责摩尔线程分布式训练方面研发工作 NLP方向从业十年以上,专注于NLP算法、分布式训练、大规模优化方向 曾经参与腾讯搜一搜业务优化、带队参加CLUE大模型benchemark测评,以1B以下小模型获得Top 10 深度学习方向老兵,MXNet.cp

2、p Commiter演演讲讲主主题题:摩摩尔尔线线程程全全功功能能G GP PU U大大规规模模语语言言模模型型分分布布式式训训练练性性能能优优化化探探索索ML-SummitML-SummitMooreThreads Full-Featured GPU Distributed Training Performance Optimization Exploration for Large-Scale Language ModelsChen ZhangMooreThreadsML-SummitML-SummitMT Megatron IntroductionML-SummitML-SummitMT

3、 Megatron IntroductionMT Megatron teams historical performanceML-SummitML-SummitMT Megatron IntroductionSupport for various training strategies;support for FP8 mixed-precision trainingML-SummitML-SummitPerformance OptimizationML-SummitML-SummitLlama Performance Optimization0102030405060708090100llam

4、a3 8Bllama3 8BOptimization for dense modelsML-SummitML-SummitDeepseek Performance OptimizationModelingMLABalancingDual ppMTPLoss AlignmentCompare ToolsProfilingMT ProfilerMT HTAPerformance EstimationSimumaxOptimizationFusionRecomputeML-SummitML-SummitDeepSeek Perf:ModelingDevice Limited LossDevice L

5、imited RouterSequence Aux lossComm Balance Losstoken drop strategyNode Limited RoutingAux Free Routingpost/pre-Normalized routing scoreML-SummitML-SummitDeepSeek Perf:Loss AlignmentA complete set of precision alignment processescomparison toolsML-SummitML-SummitDeepSeek Perf:ProfilingUse MT Profiler

6、 to obtain baseline dataperform calm analysis on the data using MT HTAaccurately estimate bottleneck gains0510152025303540ML-SummitML-SummitDeepSeek Perf:Performance EstimationUse Simumax for performance estimation and automatic parallelizationML-SummitML-Summ

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张辰-摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠