1、基于之江天目的大模型分布式并行训练软硬件协同优化技术程稳2023年11月03日中国Lustre用户峰会(China LUG 2023),2023年11月3日,北京目录n背景及动机n构建之江天目面临挑战及关键技术n之江天目应用实践n总结2一、背景与动机4应用需求与现状627147635726598988413701182310845251973370155947412050001000015000200002016201720182019202020212022Training in Data CenterInference in Data CenterIDC的芯片市场规模预测(单位:亿美元)我
2、国每年的芯片进口已经超过了3000亿美元2021年英伟达GPU芯片占据国内人工智能服务器约95%的市场份额2022年英伟达GPU芯片占据国内人工智能服务器约85%的市场份额、华为市占率为10%,百度市占率为2%、寒武纪和燧原科技均为1%应用需求5能源需求模型训练的能源消耗和碳排放参数(单位/百万)能量消耗(千万时)碳足迹(二氧化碳当量/磅)云计算费用(美金/元)Transformer(1)65272641-140Transformer(2)213201192289-981ELMo-275262433-1,472BERT1101,5071,4383,751-12571Transformer+NA
3、S213656,347626,155942,973-3,201,722GPT-21,500-12,902-43,008训练一个大型人工智能模型所需的计算能力产生超过60万磅的二氧化碳排放,相当于普通汽车寿命周期排放量的五倍中国数据中心耗电量占全社会用电量比重(单位:亿千瓦时,%)82910001108125015001763203556393 5693359710636256940472852751101.50%1.80%1.90%2.00%2.20%2.42%2.71%0.00%0.50%1.00%1.50%2.00%2.50%3.00%010000200003000040000500006
4、000070000800002014201520162017201820192020数据中心耗电量全社会用电量数据中心耗电占比随着人工智能算力的逐步提升,数据中心的耗电量占全社会用电量比重不断攀升数据中心为训练AI模型产生的能耗将为常规云工作的三倍(Digital Information World)6能耗问题Amirali Boroumand,Saugata Ghose,Youngsok Kim,RachataAusavarungnirun,Eric Shiu,Rahul Thakur,Daehyun Kim,Aki Kuusela,Allan Knies,Parthasarathy Ran
5、ganathan,and OnurMutlu,Google Workloads for Consumer Devices:Mitigating Data Movement BottlenecksProceedings of the 23rd International Conference on Architectural Support for Programming Languages and Operating Systems(ASPLOS),Williamsburg,VA,USA,March 2018.62.7%of the total system energy is spent o
6、n data movement40%40%10%5%5%传统风冷数据中心用电分布IT EquipmentCoolingUPSLightningOthers自然冷源换热效率气流组织制程工艺持续优化,性能功耗比不断提升,但核心数量翻倍式增长带来功耗快速上涨内存带宽不断增长匹配算力增长需求,带来系统功耗进一步提升(内存通道:6812)(内存频率:32004800)7性能需求人工智能模型参数量增长情况ELMo(94M)BERT-Large(340M)GPT-2(1.5B)Megatron-LM(8.3B)T5(11B)Turing-NLG(17.2B)GPT-3(175B)Switch Transfo