《浪潮信息:2023年开放加速规范AI服务器设计指南(20页).pdf》由会员分享,可在线阅读,更多相关《浪潮信息:2023年开放加速规范AI服务器设计指南(20页).pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、开放加速规范AI服务器设计指南Open Accelerator AIServer Design Guide2023 年 8 月4.1 设计原则4.1.1 应用导向原则4.1.2 多元开放原则4.1.3 绿色高效原则4.1.4 统筹设计原则4.2 设计指南4.2.1 多维协同设计节点层面:(1)系统架构(2)OAM模块(3)UBB基板(4)硬件设计(5)散热设计(6)系统管理(7)故障诊断(8)软件平台集群层面:(1)集群网络与存储(2)整机柜(3)液冷(4)制冷(5)运维4.2.2 全面系统测试(1)结构测试(2)散热测试(3)稳定性测试(4)软件兼容性测试 4.2.3 性能测评调优(1)基础
2、性能测试(2)互连性能测试(3)模型性能测试(4)模型性能调优01生成式AI的算力需求与挑战02开放加速规范AI服务器开发背景03开放加速规范AI服务器发展历程04开放加速规范AI服务器设计指南030504060606060607070707080809111111111212131313131414141414151515151606CONTENTOpen AcceleratorAI Server Design开放加速规范AI服务器设计指南|Open Accelerator AI Server Design Guide03生成式AI的算力需求与挑战自OpenAI的ChatGPT发布以来,生成
3、式AI技术获得了广泛关注,一系列开创性研究成果相继发布,引领了人工智能的新一轮创新浪潮。AI大模型是生成式AI的关键底座,得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高,大模型被认为具备了“通用人工智能AGI”的雏形。相比传统AI模型,大模型的训练使用了更庞大的数据,具有更巨量的模型参数和更发散的下游应用场景,对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此,全球范围内已经掀起了一场生成式AI革命,政策和资本驱动生成式AI技术加速商业化落地。AI大模型发展需要庞大的AI算力支撑,大模型往往采用无标注、自监督的训练方法,使用海量数据做超大规模的模型训练,因而对于
4、算力的需求和传统的模型训练相比也出现了34个数量级的提升。当前语言大模型的参数量已达千亿以上,训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力当量”(PetaFlops/s-day,PD),即每秒千万01亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求,具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。参数量为2457亿的源1.0大模型训练算力消耗为4095Peta-Flop/s-day。大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。在全球科技
5、企业加大投入生成式AI研发和应用的大背景下,配置高算力AI芯片的AI服务器需求也不断高涨。随着市场对AI计算力需求的不断攀升,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势愈发显著。但因为各厂商在AI开发中采用了不同的技术路线,导致芯片的接口、互连、协议上互不兼容,而专有AI计算硬件系统开发周期长、研发成本高,严重阻碍了新型AI加速器的研发创新和应用推广。全球开放计算项目组织OCP发起开放加速规范OAI,但在推向产业落地的过程中,依然存在大量的定制化工作以及现有标准未能完全覆盖的领域,包括多元AI芯片适配、AI算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个
6、方面。04开放加速规范AI服务器开发背景02最初的深度学习模型通过单张加速卡或者多卡间PCIe P2P通信的方式来满足模型训练和推理的计算需求。随着AI大模型的快速发展,加速卡间通信的数据量越来越多,仅仅通过PCIe P2P通信已经无法满足超大规模深度学习模型的通信需求。另一方面,单张AI加速卡的功耗随算力提升逐代显著增加,PCIe物理形态难以满足高功耗芯片的供电和散热需求。NVIDIA公司推出了非标准PCIe CEM形态的NVLINK接口的GPU 加速卡,从而支持更高的功耗和更大的卡间互连带宽。但是,由于缺乏统一的业界规范,不同厂商的AI加速芯片无论在结构上还是电气特性上都存在显著差异,导致