当前位置:首页 > 报告详情

百度智能云:百度AI大底座大模型研发基础设施方案(23页).pdf

上传人: AG 编号:609195 2024-01-01 23页 12.18MB

1、百度AI大底座大模型研发基础设施方案目录!#!#$%$%&()*+,-&()*+,-././*0$%!12)!#34*+,-56.7.7!#3489:;.!#?ABCD=.E.EFGHIJ=K.L.L算力是大模型核心驱动力,推进AI基础设施新范式演进Jared,et al.2020.ELMo(90M)!#$%&()*#+,-./(%.()*GPT-2(1.5B)#+,-0/(%&()*$1%.!*$234567+89%.:!*GPT-3(175B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B);4$%?887%./0!*CogView(4B)ERNIE-VILG(10B

2、)Plato-XL(11B)0.050.55505002017/8/142018/9/182019/10/232020/11/262021/12/31模型大小(十亿参数)(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)模型参数演进Scaling Law三要素计算规模大GPT-3:314 ZFLOPS单卡A100训练需要32年模型参数大GPT-3:175B 参数350G+存储空间成本投入大GPT-3:数以亿计的训练和推理成本分布式架构us时代的万卡互联计算精度整体向低精度迁移,混合精度是常态存储瓶颈训练显存,推理服务,芯片存算比模型参数演进Scaling Law三要素以G

3、PT-3为例,1750亿参数模型、3000亿词语,计算量314ZFLOPS新摩尔定律大模型训练的核心需求关注点训练加速优化智算集群构建高性价比易用性异构算力万卡集群高速互联分布式训练高性能算子显存优化集群加速比算法收敛速度利用率提升多级存储弹性按需弹性容错一站式平台最佳实践百度AI大底座全景图百度AI大底座全景图!#$%&()*+,-./012,-34567#$89):;!#$%&()*+,-./0+,1234-.-56.789:97;9?34ABCDEFGHIJ#$34-.-56K:BD7D7LMN?OPGQRST?)FGUVW()*AXY-.78D7DOB7EZ6Y-34=(_-.abcd

4、efgh-.ijdeOYklmn-.ijdeoBpqXkrstuvwtu-.xyzRde百度AI大底座由AI IaaS层(百舸AI异构计算平台)、AI PaaS层(AI中台)两大部分组成?Suvw|vw|目录!#$%&()*+,+,-.-.&!/01!#23-456789:!/01!#23-456789:+;+;!#23?78+!#ABCDEF78+G+GHIJKL8M+N+N百度AI大底座-AI基础设施解决方案全景图最适合跑大模型的大规模、高性能AI基础设施最优的训练推理性能稳定性万卡模型训练不中断稳定收敛易用性一键跑通千亿大模型训练推理云原生AI套件云原生平台基础设施高性能计算(A100、

5、A800、昆仑)高性能存储(PFS、BOS、RapidFS)高速互联 网络(IB、RoCE)CCE(公有云)CCE-Stack(私有云)异构调度数据加速训练加速服务部署推理加速GPU架构感知Tor 架构感知Binpack调度Gang调度公共数据集公共模型库模型/数据预热高性能存储BF16 优化参数推荐CostModel通信overlap故障感知算力容错网络容错任务容错多卡部署灰度发布流量控制动态伸缩动态batch张量并行模型轻量化模型稀疏化百舸控制面计算产品配置存储产品配置网络产品配置云原生AI套件配置容器平台配置容错训练目录!#$%&()*+,+,-.&!/01!#23-45678+9+9!

6、#23:;?!#23:;?+!#ABCDEF?+G+GHIJKL?M+N+N大模型训练物理服务器介绍实例名称实例规格ehc.lgn5.c128m1024.8a800.8re.4dCPU:Intel Xeon Gold 8350C/32C 2.6GHz 240W*2内存:DDR4-3200 64G RDIMM*16磁盘:SATA-SSD 480G*1+NVMe-SSD 4T*4网卡:100G CX6 双口*4+100G 双口智能网卡*1其他:NVIDIA A800 80G NVLinkSW*8ehc.lgn5.c128m1024.8a100.8ib.4dCPU:Intel Xeon Gold 8

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
百度AI大底座是一个大规模、高性能的AI基础设施解决方案,包括AI IaaS层(百舸AI异构计算平台)和AI PaaS层(AI中台)。该方案支持大规模模型训练,如GPT-3(175B参数),并优化了训练加速、通信效率、存储和网络虚拟化等方面。百度提供了适用于不同场景的大模型,如NLP、CV和跨模态大模型。此外,百度还提供了训练加速套件AIAK-Training和推理加速套件AIAK-Inference,以提高模型的训练和推理效率。整个方案具有高性价比、易用性和稳定性,可支持千亿参数大模型的训练和推理。
如何推动大模型研发?" 百度如何实现高效加速?" 如何提供稳定高效的训练环境?"
客服
商务合作
小程序
服务号
折叠