《戴尔科技:AI GPU分布式训练白皮书(2022版)(61页).pdf》由会员分享,可在线阅读,更多相关《戴尔科技:AI GPU分布式训练白皮书(2022版)(61页).pdf(61页珍藏版)》请在三个皮匠报告上搜索。
1、戴尔科技 AI GPU分布式训练技术白皮书(2022 版)内容摘要 当前人工智能应用消耗的计算力,平均2-3个月就会增长一倍。AI模型越来越庞大,模型参数规模快速增长,针对 AI 大模型训练,仅靠提升 AI 加速芯片单卡性能已经非常困难,多机多卡分布式训练势在必行。同 AI 服务器单机训练相比,多机 GPU分布式训练是一个系统工程,“通信墙”和“IO 墙”是制约大规模计算集群加速的主要影响因素。戴尔科技集团将在技术白皮书中,为您分享 AI 计算技术发展的研究,构建 AI GPU 分布式训练集群的解决方案与性能优化的最佳实践。本白皮书撰写团队戴尔科技集团数据中心业务部戴尔科技集团人工智能和高性能
2、计算创新实验室北京凌云仿真信息技术有限公司人工智能技术的发展与成熟,AI 商业化进程的加速,为拓展数字经济及加速企业数字化转型提供了新的动能。戴尔科技集团首席执行官(CEO)迈克尔 戴尔先生(Mr.Michael Dell)在谈及人工智能曾经讲过:释放数据的力量,AI 正在真正改变我们的世界。如果说人工智能是火箭,那么数据就是火箭的燃料。新兴且强大的技术,将把我们带入又一次文艺复兴,这将是人类取得伟大进步的一个时代。我们正处在由技术引导的一个巨大投资周期的开端;新技术要求投入巨资来部署支持人工智能的新型技术架构,无缝且安全地从边缘到核心再到云。在中国,我们看到人工智能技术正在加速与各个主要行业
3、的融合,创造出更多的行业应用场景。在互联网,AI 正在被广泛应用于智能推荐、视频审核与智能客服;在制造业,AI 已经在工业产品外观检测、预防性维护等领域落地;在金融,AI 技术越来越多应用于智能风控、投顾与保险理赔;在生命科学,Google Alphafold2 的开源,让我们看到了 AI 加速蛋白质 3D 结构预测与新药研发的重大前景。秉承戴尔科技集团“在中国,为中国”的理念,我们一直积极投入于加速中国人工智能产业进步与行业落地的实践工作。2015 年,戴尔科技与中科院自动化所合作共建人工智能与先进计算联合实验室,在 AI 计算、深度学习服务平台、传统行业 AI 应用落地等领域进行了深入的探
4、索实践。2019 年,戴尔科技集团与中国赛艇协会、中国皮划艇协会签署水上实验室技术战略合作,为中国赛艇队、皮划艇队开发了一套融合 AI 运动生物力学模型、GPU 高性能计算、流数据平台的综合智能训练服务系统,通过视频实时捕捉运动员的训练动作、实时分析和判断,纠正运动训练中的动作力度、角度和稳定性偏差,助力运动员备战奥运。在高校 AI 人才培养和产教融合领域,戴尔科技集团基于智能驾驶小车开发的 AI 沉浸式教学实训平台,已经在国内多所知名大学完成 AI 实训课程教学;AI Master Class 人工智能视频教学课程,目前开放包括 AI 原理/机器学习/特征工程/机器视觉/AI框架 五大模块超
5、过 30 多讲视频课程,致力于降低在校大学生及有志于投身 AI 的职场人士学习 AI 的入门门槛。AI 模型开发和工业场景应用,需要大量的计算力。戴尔科技集团发布的最新一代 PowerEdge 15G 服务器,面向 AI 异构计算算力需求,在主板设计、电源功率、风扇散热、GPU 通信等多个技术领域进行优化设计,并推出面向数据中心高性能 AI 计算的优化服务器 PowerEdge XE8545与 PowerEdge R750 xa,以及适应 AI 边缘计算场景的边缘优化服务器 PowerEdge XR11 与PowerEdge XR12。伴随着 AI 行业应用的深入,参数空间更大、结构更加复杂、
6、算力消耗更高的大型 AI 模型不断涌现,仅靠单机算力的提升已经变得越来越困难和不经济,依托 AI 计算集群的多机分布式训练势在必行。AI 集群分布式训练是一个复杂的 AI 系统工程,需要计算/存储/网络/框架软件各个组件的相互协同与系统优化,如同一辆行驶在公路上的轿车内部的各个关键机械部件,任何一点存在性能短板都会造成整体的性能下降。这其中存储 IO 是一个非常关键的问题。深度学习模型训练依赖于大数据,训练数据集数量越多、质量越高、针对性越强,模型的精度越高,这就需要提供一套高性能、易扩展的数据存储系统,满足规模持续增长的 AI 数据存储空间、性能及数据保护要求。随着以 GPU 为代表的异构加