《薛金宝-腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架.pdf》由会员分享,可在线阅读,更多相关《薛金宝-腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、空白演示Lorem ipsum dolor sit amet,consectetur adipisicing elit.腾讯腾讯AngelPTMAngelPTM大模型训练框架优化与实践大模型训练框架优化与实践支撑混元大模型训练的训练框架支撑混元大模型训练的训练框架薛金宝薛金宝2022024 4.6 631 1大模型发展趋势和训练面临的挑战大模型成为人工智能发展的重要方向大模型成为人工智能发展的重要方向模型参数规模指数级增长生成式大模型突飞猛进,5年时间,模型参数规模增长100万倍,达到万亿量级Scaling Law1:数据越多、模型越大,模型学习能力越强,模型效果越好1OpenAI“Scali
2、ng Laws for Neural Language Models”,https:/arxiv.org/abs/2001.08361,2020大模型发展趋势大模型发展趋势-模态变化模态变化文生文文生图文生视频多模态全模态ChatGPTChatGPTLlama3Llama3StableStable DiffusionDiffusionDiTDiTSoraSoraSTDiTSTDiTGPT4VGPT4VGeminiGeminiGPT5GPT5大模型发展趋势大模型发展趋势-MOE-MOE以及更长以及更长ContextContext WindowWindow1 GLaM:Efficient Scal
3、ing of Language Models with Mixture-of-Experts2 Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity3 Lifelong Language Pretraining with Distribution-Specialized Experts4 https:/the- 1Expert 2Expert 16门控模块FFN 层Self-Attention 层(共享参数)120层 Decoder-Only 总参量:1.8T 训练
4、数据:13T Tokens 激活2个Expert(111B 参数/Expert)Self-Attention层是55B的共享参数 Context Window,最初是8K,逐步精调至32K 模型容量模型容量/效果效果 模型参数量越大效果越好 相同激活参数量,MoE更好 训练训练/推理成本推理成本 成本低,e.g.,GLaM1训练成本相当于GPT-3的1/3,推理成本相当于GPT-3的1/2,但效果超过GPT-3 终身学习终身学习 各类数据,知识和特征分布不同,容易出现知识干扰和遗忘 Dense模型数据的配比挑战很大,配比小的数据很难表现较好大模型训练的挑战大模型训练的挑战显存需求大算力规模大网
5、络通信量大模型结模型结构构参数参数规模规模模型状态模型状态显存需求显存需求激活值显存激活值显存需求需求(Bs=1,Seq=4(Bs=1,Seq=4k)k)预估模型状预估模型状态存储最少态存储最少卡数卡数(A100-A100-40G40G)BertBert0.33B0.33B5.94G5.94G0.22G0.22G1 1张张LLaMALLaMA70B70B1260G1260G5G5G3232张张GPT3GPT3176B176B3168G3168G7.64G7.64G8080张张GPT4GPT41800B1800B32400G32400G10.81G10.81G810810张张模型结构模型结构参数
6、规模参数规模通信量通信量(梯度梯度)TPTP通信通信BS=64/Seq=BS=64/Seq=4K4KBERTBERT0.33B0.33B0.66G0.66G-LLAMALLAMA70B70B140G140G1374.39G1374.39GGPT3GPT3176B176B352G352G2104.54G2104.54GGPT4GPT41800B1800B3600G3600G2768.24G2768.24G82 2大模型训练框架AngelPTM9参数多计算量大参数多计算量大腾讯腾讯AngelAngel机器学习平台机器学习平台大模型训练推理大模型训练推理面临双重挑战面临双重挑战文生图万亿参数1.6E