《【赵亮】生成式 AI 狂潮下如何加速大规模语言模型计算.pdf》由会员分享,可在线阅读,更多相关《【赵亮】生成式 AI 狂潮下如何加速大规模语言模型计算.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、生生成成式式A AI I狂狂潮潮下下如如何何加加速速大大规规模模语语言言模模型型计计算算赵赵亮亮英特尔人工智能方案架构师INTEL HABANA 方案架构师2011年加入INTEL从事HABANA产品在中国区的技术推广、支持和落地工作赵赵亮亮0 01 1现现代代L LL LMM模模型型发发展展史史1 10 0B B+L LL LMM时时间间线线*https:/arxiv.org/abs/现现代代L LL LMM发发展展演演进进树树*https:/arxiv.org/abs/模模型型结结构构典型模型分类列表E En nc co od de er r-d de ec co od de er rEL
2、MoT5GLMD De ec co od de er r-o on nl ly yGPTxLLaMAPaLMBLOOMChinchillaERNIE3.0LaMDAGopherAlpacaE En nc co od de er r-o on nl ly yBERTRoBERTaDistilBERTALBERTXLMERNIE趋趋势势参数规模越来越大,结构趋同,Transformer化,普遍采用Decoder-only方式0 02 2典典型型L LL LMM技技术术分分析析比比较较T Tr ra an ns sf fo or rmme er r结结构构K Ke ey y MMo od du ul
3、 le es sMulti-Head Attention(MHA)Feed Forward(FF)Normalization(NORM)Position Embedding(PE)Activation*https:/arxiv.org/abs/典典型型L LL LMM配配置置比比较较Normalization,PE,Activation Function,Layers,Heads,Hidden Size,Max Seq Length*https:/arxiv.org/abs/训训练练相相关关配配置置Learning Rate/Optimizer/Precision/*https:/arxiv.
4、org/abs/0 03 3L LL LMM训训练练、推推理理的的软软硬硬件件要要求求C Co ommp pu ut te eMMe emmo or ry yC Co ommmmA AI I计计算算三三要要素素算算力力、内内存存、通通信信L LL LMM因因参参数数规规模模极极速速膨膨胀胀带带来来的的严严重重问问题题之之一一是是 内内存存问问题题训训练练预预训训练练(P PT T)全全量量微微调调(F FT T)参参数数高高效效微微调调(P PE EF FT T)训训练练 -P PT T/F FT T中中的的内内存存需需求求Parameter/Gradient/Optimizer的基础内存需求
5、*ZeRO&DeepSpeed:New system optimizations enable training models with over 100 billion parameters-Microsoft Research缓缓解解技技术术Data Parallelism-ZeroTensor ParallelismPipeline ParallelismMixed Precision依依赖赖大内存高卡间互联带宽训训练练 -P PT T/F FT T中中的的内内存存需需求求Activation分析*https:/arxiv.org/abs/2205.05198缓缓解解技技术术Parall
6、elism(Tensor/Sequence/Pipeline),CPU offloading,Activation Recomputation or Activation checkpointing,依依赖赖大内存,高算力训训练练 -P PT T/F FT T中中的的内内存存需需求求Activation Precomputation*https:/arxiv.org/abs/2205.05198缓缓解解技技术术Selective Activation Recomputation依依赖赖大内存,高算力训训练练 -P