《赛迪前瞻:2025大模型时代主要国家破解算力困局的做法及建议(13页).pdf》由会员分享,可在线阅读,更多相关《赛迪前瞻:2025大模型时代主要国家破解算力困局的做法及建议(13页).pdf(13页珍藏版)》请在三个皮匠报告上搜索。
1、 -1-2025 年 1 月 3 日 第2025 年 1 月 3 日 第1 1期 总第 882 期期 总第 882 期 大模型时代主要国家大模型时代主要国家 破解算力困局的做法及建议破解算力困局的做法及建议 2024 年 9 月,英特尔发布至强 6 性能核处理器,可为 AI、数据分析、科学计算等计算密集型业务提供更卓越性能。此前,为应对新一轮 AI 热潮下智能算力需求暴增,美、德、日、韩等国在 AI 芯片研发、计算网络建设、算力生态建设等方面进行了积极探索。当前,我国应学习和借鉴国外经验,在高性能算力芯片研发、全国一体化算力网络建设、算力产业新生态构建方面下功夫,提升我国智能算力供给水平,加快
2、大模型产业发展。-2-一、主要国家应对大模型时代智能算力困局的主要做法一、主要国家应对大模型时代智能算力困局的主要做法 随着 AI 技术的不断进步和应用的持续深化,全球算力需求呈现爆发式增长。据测算,OpenAI 的 GPT-3 模型参数达 1746亿个,一次训练所需算力约为 3640PFlops1。IDC 报告显示,全球数据量年均增长约 60%,但算力年均增速仅为 10%,算力供给与需求存在巨大差距2。为更好平衡算力需求与供给,各国纷纷出台政策,支持算力产业发展。重视高性能芯片研发和生产,以更好地满足大模型产业重视高性能芯片研发和生产,以更好地满足大模型产业对对高性能、高弹性、高稳定性智能算
3、力的需求。高性能、高弹性、高稳定性智能算力的需求。近年来,美、日、德、韩致力于加强芯片制造和研发能力,以保持大模型产业国际竞争力。2023 年,美国政府宣布向“国家先进封装制造计划”(NAPMP)投入 30 亿美元,围绕封装基板和材料、工艺装备与方法、供电与热管理、光子器件与连接器、小芯片生态系统,以及测试、修复、安全性、互操作性和可靠性的协同设计等 6个领域提供项目资助3。日本经济产业省提出约 230 亿美元基金 1 大国 AI 博弈正酣,切勿轻言算力过剩.新浪科技.2024-10-31.2 大模型需求涌现,算力如何跟上节奏?https:/ 3 美国发布先进封装制造计划愿景及资助重点.htt
4、p:/ -3-预算,支持半导体行业发展4。德国德国计划拨款 200 亿欧元,用于补贴半导体制造业,增强其在全球半导体产业中的话语权。2024 年,韩国产业通商资源部韩国产业通商资源部计划在 2025 年至 2031 年间投资2744 亿韩元,与包括三星电子、SK 海力士、LG 化学、韩亚微米、韩美半导体等 10 家半导体相关企业和机构联合,开发半导体封装先进技术。支持高性能计算能力建设。支持高性能计算能力建设。大带宽、高利用率且信息无损的高性能算力网络是大模型时代提升算力的重要保障。美国美国先后制定高性能计算和通信计划 网络和信息技术研发计划国家战略计算计划等文件,不断改进、优化高性能计算能力
5、建设。2020 年,德国德国更新国家人工智能战略,提出追加20 亿欧元支持 AI 研究,推进高性能计算中心网络建设,对 8个高校的计算中心进行为期 10 年、每年 6250 万欧元的资助5。韩国韩国计划从 2023 起至 2025 年,每年投入 20 亿韩元,支持高丽大学主导建立一个拥有 35Peta FLOPS 规模的 AI 创新数据中心,为 Hyper Modal(开发同时理解多种数据的超大深度学习 4 日媒:日政府拟大手笔补贴半导体产业.https:/ 5 德国强化人工智能能力建设 加大高性能计算网络投资.中华人民共和国商务部中国服务贸易指南网.-4-技术)等 12 项高风险、挑战型 A
6、I 研究提供支撑6。2023 年,日本经济产业省日本经济产业省提出,要承担 50%的费用支援 Sakura Internet公司配备超级计算机,帮助国内初创企业开发生成式 AI7。重视算力产业生态建设。美国政府提出,重视算力产业生态建设。美国政府提出,要将政府、学术界、非营利组织和行业部门等共同纳入先进计算生态系统计划,通过汇聚各方面力量、建立协同增效机制、规范共享计算协议等措施,强化本国战略计算能力8。2023 年,韩国政府韩国政府公布 AI 大模型竞争力提升方案,计划构筑由民间企业主导、政府支援的超大型 AI 合作生态系统,推动医疗、法律、咨询等领域的 AI 应用服务升级,截至 2026
7、年将培育 10000 家 SaaS企业9。欧盟欧盟成立欧洲高性能计算联合委员会,通过汇集欧盟、欧洲国家和私人合作伙伴资源,并加大算力基础设施建设和配套关键技术研发投入,助力欧洲开发世界一流的智能计算生态系统。二、我国破解算力困局需在三方面下功夫二、我国破解算力困局需在三方面下功夫 6 韩国要闻韩国依托高校设立“人工智能创新数据中心”促进研究数据的便捷共享.https:/ 日本支援超级计算机建设 为生成式 AI 开发提供算力帮助.https:/ 美多举提升战略计算能力.光明网.2023-04-03.9 韩国构建大模型合作生态圈.中国经济网.2024-02-03.-5-当前,我国大模型产业发展仍面
8、临高性能算力芯片供给不足、互联带宽和能源消耗约束大、算力调度体系不完善等挑战,一定程度上阻碍了大模型产业发展壮大。高性能算力芯片供给端仍然短缺。高性能算力芯片供给端仍然短缺。大模型运行过程中需要大量计算能力,对高性能算力芯片等硬件设备的性能要求高。据海关总署数据显示,2024 年 1-9 月,集成电路进口数量高达4077 亿个,较去年同期增长 14.55%10。高性能算力芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。目前,我国高性能算力芯片对外依存度仍相对较高,短缺问题短期内难以解决。GPU 芯片方面,芯片方面,GPU为通用型芯片,国产 GPU 芯
9、片与国际巨头相比,在大模型训练、软件和生态建设等方面差距较大。FPGA 芯片方面,芯片方面,FPGA为半定制芯片,90%以上的市场份额由美国的赛灵思和阿尔特拉两家公司占据,其余大部分被美高森美、莱迪思、快辑半导体三家美国公司占据11,我国在 FPGA 领域尚处于起步阶段,10(14)2023 年 9 月进口主要商品量值表(人民币值).海关总署.11 华为也难国产化的 FPGA 芯片,我国处于什么阶段?https:/ 芯片方面,芯片方面,为全定制型 AI 芯片,ASIC能根据产品特定需求进行设定,但研发成本高、可复制性一般,我国 ASIC 技术与世界领先水平差距较小,但英伟达的 CUDA平台已建
10、立强大的软件生态系统,极大提升其芯片的通用性与易用性,是国产芯片厂商面临的一大难题。算力需求引发对互联带宽、能源消耗的更高要求。算力需求引发对互联带宽、能源消耗的更高要求。一是算一是算力互联需要足够的网络带宽。力互联需要足够的网络带宽。据悉,千亿、万亿参数规模的大模型,训练过程中通信需求占比最大可达 50%,传统使用的无链接网络技术和向上收敛的网络架构,在通信连接、算力调度、稳定性等方面仍有诸多问题,丢包、重传等问题频繁出现,对智算中心模型训练可能会带来致命问题。相关数据显示,0.1%的网络丢包可能导致 50%的算力损失,极易造成算力资源浪费13。二是二是算力对水电的消耗巨大。算力对水电的消耗
11、巨大。据中国算力平台统计测算,2023 年,中国数据中心用电量约 1500 亿度,占全社会用电量的 1.6%,数据中心用电年增速约 15%,据预测,预计到 2030 年,全国算力 12 FPGA 背后的芯片江湖:华为是最大客户,但国产率不足 5%,依赖进口.https:/ 助攻 AI 大模型,腾讯云星脉高性能计算网络首次完整披露.https:/ 3000 亿千瓦时14。此外,高算力也会带来水资源的大量消耗。研究指出,数据中心冷却需耗费 401 吨水,约合10 万个家庭用水量。制造 2 克重的计算机芯片约需 32 公斤水,制造 8 寸晶圆每小时耗水约 250 吨,12 寸晶圆则可达 500 吨1
12、5。算力调度体系难以满足算力调度体系难以满足 AI 大模型训练需要。大模型训练需要。研究人员通常采用并行计算和分布式训练方法应对 AI大模型的计算挑战,但因智能算力尚未实现精细化调度,导致该方法实际操作难度较大。从跨区域调度来看,东西部从跨区域调度来看,东西部算力资源分配不均、供需不算力资源分配不均、供需不平。平。东部地区应用需求大,但能耗指标紧张、电成本高,大规模发展数据中心难度和局限性大;西部地区可再生能源丰富、气候适宜,但网络宽带小、跨省数据传输费用高,无法有效承接东部需求,算力供需难以高效匹配。从跨设备调度来看,各从跨设备调度来看,各算力中心相互独立,缺少高效协同机制。算力中心相互独立
13、,缺少高效协同机制。大型算力数据传输依靠传统方式,算力即时调度与应用难度大。智能算力资源即时调度受数据时延不敏感、单通道传输带宽有限、通道宽带数量 14 两个体系,双向奔赴:算电协同还有三大挑战待破.https:/ 耗电又耗水,谁能拯救 AI 能耗之伤?https:/ 等各类智能算力芯片产生的算力,在精度、形态等方面有诸多差异,导致智能算力统一调度和按需分配难度较大17。三、几点思考三、几点思考 以智能算力需求为导向,强化高性能算力芯片供给。以智能算力需求为导向,强化高性能算力芯片供给。一是一是强化高性能芯片技术攻关。强化高性能芯片技术攻关。鼓励芯片产业链上龙头企业联合链上创新主体,聚焦 GP
14、U、FPGA、ASIC 等高性能芯片设计、生产和封装测试等环节,从核心原材料、生产设备、制造工艺等各方面,开展关键核心技术协同攻关。二是加快高性能芯片生二是加快高性能芯片生产和推广应用。产和推广应用。鼓励芯片厂商加大对工作负荷、芯片性能、成本、兼容性等高性能芯片需求关键指标的调查摸底,有针对性地研发生产能够满足分布式大模型训练、多模态处理等应用性能需求的芯片,加速高性能芯片产业化应用。16 2022 中国算力服务市场发展研究报告.https:/ 17 同上 -9-以支撑算力应用为核心,加快推进全国一体化算力网络建以支撑算力应用为核心,加快推进全国一体化算力网络建设。设。以算力基础设施高质量发展
15、行动计划深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见等为路线图,加快构建全国一体化算力网络,支撑大模型产业发展。一是建立直连超宽带光网络,为算力应用提供高效的一是建立直连超宽带光网络,为算力应用提供高效的网络通信网络通信连接。连接。建立直连超宽带光网络,将算力节点和枢纽用光网络连接,提供满足需求的传输带宽,为算力传输提供有力支撑。二二是完善算力联网统一调度体系,破解异构算力调度问题。是完善算力联网统一调度体系,破解异构算力调度问题。鼓励各方建立多层次算力调度体系,探索建立云原生网络等多种方式,推动云算力、智能算力、超算算力、混合算力等一体化调度应用,实现算力生产、运营、管理等与
16、行业应用有效适配。以绿色化发展为方向,推进算力中心低碳化建设与改造。以绿色化发展为方向,推进算力中心低碳化建设与改造。一是严格新上算力中心项目能效水效要求。一是严格新上算力中心项目能效水效要求。鼓励各地区结合实际对新上算力中心项目能效提出更高要求,稳步提升新建算力中心单位算力能效水平。鼓励地方通过“上大压小”“迁旧建新”等方式,加强优质算力中心项目用能用水保障。二是推进存量算力二是推进存量算力中心项目节能降碳改造。中心项目节能降碳改造。加快推进低效算力中心节能降碳改造 -10-和“老旧小散”算力中心整合改造。推进设备布局、制冷架构、气流组织、外围护结构、供配电方式、单机柜功率密度及系统智能运行
17、策略等方面的技术改造和优化升级。三是提升可再生能源在三是提升可再生能源在算力中心项目建设中的应用。算力中心项目建设中的应用。引导新建数据中心与可再生能源发电协同布局,鼓励存量数据中心通过参与绿电绿证交易等提高可再生能源利用率。四是推广应用节能技术装备。四是推广应用节能技术装备。鼓励推广高效制冷散热、AI 节能等技术应用,提高自然冷源利用率的同时,促进算力中心算存运的高效协同联动。推广高效节能的算力中心建设相关产品设备。以培育链主企业为抓手,打造算力产业新生态。以培育链主企业为抓手,打造算力产业新生态。一是梯次一是梯次培育一批优质算力产业链主企业。培育一批优质算力产业链主企业。培育一批计算生态主
18、导型企业,鼓励其开放技术能力、供应链资源,支持创新型先进计算中小企业围绕细分领域向价值链高端延伸,基于大企业生产需求提升配套能力,强化硬件、基础软件、应用软件等适配协同,持续完善上下游多方协同的算力产业生态体系。二是完善算力二是完善算力产业配套服务。产业配套服务。围绕先进计算重点领域,布局一批国家级、省级创新中心。布局 AI 开源开放平台,建立健全开源运营机制,-11-鼓励企业开放源代码、硬件设计和应用服务。三是强化算力产三是强化算力产业人才储备培优。业人才储备培优。建立完善算力产业专业人才和专家库,围绕先进计算重点方向,设立一批国家级重点实验室、工程技术研究中心等,建立产业人才培养教育基地。本文作者:赛迪研究院 鲁金萍 联系方式:13810363962 电子邮件: