《甲子光年:2024年中国AI算力行业发展报告(60页).pdf》由会员分享,可在线阅读,更多相关《甲子光年:2024年中国AI算力行业发展报告(60页).pdf(60页珍藏版)》请在三个皮匠报告上搜索。
1、出品机构:甲子光年智库智库院长:宋涛报告撰写:刘瑶、郭瑶琴、王艺霖发布时间:2024.12目 录Part 01时代动力,AI新世代繁荣的发动机Part 02层见叠出,复杂工程需要多样手段解决Part 04实践落地,AI算力应用的新标杆Part 05来日方长,AI新世代下的不断探索Part 03各取所需,市场激发AI算力的选择思考纵观AI发展,算法的技术突破拉动了算力的需求训练算力(FLOPS)需求与人工智能发展关系图N=121训练算力需求FLOPS2010前深度学习时期之前,训练计算算力需求缓慢增长,算力翻倍需要21.3个月2010-2022深度学习不断取得进展,算力翻倍仅需要5.7个月,所需
2、算力量级由 TFLOPs增至EFLOPs2015-2016 年左右开启了大模型时代,整体的训练计算量较之前的时期大2到3个数量级。从2022年底,随着ChatGPT成功带来大规模参数通用大模型相继发布。这些大模型的训练需要千亿、甚至万亿级参数,以及上千GB的高质量数据,大模型的训练迭代将极大地拉动了智能算力的需求。2012-2023年算力需求翻了数十万倍,AI算力需求远超摩尔定律,大模型对算力的需求每年持续增长,未来10年AI算力需求将再增长500倍。GPT-4ChatGPTGPT-3AlphaZeroAlphaGoZeroNeural Machine TranslationTI7 Dota
3、1v1XceptionDeepSpeech2ResNetsSeq2SeqGoogleNetAlexNetVGGVisualizing and Understanding ConvNets2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 20231e-41e-31e-21e-11e+01e+11e+21e+31e+4模型规模指数级增长推动算力需求爆发无论是训练还是推理,大模型的爆发引发全球算力需求的指数级增长技术层面上,基础模型通过迁移学习(Transfer Learning)和规模(scale)得以实现;Transformer的应用标
4、志着基础模型时代的开始(基础模型的庞大规模和应用范围突飞猛进),模型参数量指数级增长,带动算力超过摩尔定律。Sora等视频生成类模型相较于大语言模型消耗的算力提升20倍。随着海量数据的积累,大模型需要处理的数据量也在不断增长,进一步加剧了对算力的需求。PFLOPs1e+021e+091e+081e+071e+061e+051e+041e+031e+021e+091e+081e+071e+061e+051e+041e+03TransformerPFLOPs基于Transformer结构算法训练所需算力短时间内激增,远超摩尔定律基于Transformer结构算法与时间的关系摩尔定律与时间的关系Tr
5、ansformer结构对于基础模型训练算力需求的推动作用1015101710191021102310250.00.20.40.60.81.0Sora(1 min ideo)GPT4(10000 text tokens)DiT-XL/2 Image Generation(512x512px images)推理消耗算力对比(单位:FLOPS)AI产业快速发展为AI算力市场带来新机遇从产业规模看,全球人工智能快速增长。2023年全球人工智能市场收入达5381亿美元,同比增长18.5%,到2026年市场规模将达9000亿美元。从投融资看,2024年Q1全球AI领域完成1779笔融资交易,筹集的风险投资
6、总额达216亿美元。从企业发展看,全球人工智能呈现“中美主导”格局。截至2023年三季度,全球人工智能企业有29542家。美国有9914家,占比为34%;中国有4469家,占比为15%;中美人工智能企业数占全球总数约49%。4541.25381.36382.37575.89000010002000300040005000600070008000900010000202220232024E2025E2026E图1:2022-2026年全球AI市场规模(单位:亿美元)图2:全球AI领域投融资情况(单位:亿美元)78914951022900216020040060080010001200140016
7、0020202021202220232024Q1图3:全球AI企业数量国家分布34%15%6%5%4%36%美国中国英国印度加拿大其他资源“三剑客”中,算力承接算法及数据,成为AI产业发展基石AI数据数据巨量化跨模态融合算法算力内容创造力数据层面核心技术突破多模态认知计算数字孪生虚拟现实全息立体应用场景算法层面感知+交互大数据语料库高精度训练集标注训练计算任务投喂算力层面硬件算力智能交互实时算力边缘计算云计算本地化当下的时代机遇:大规模模型的摩尔定律-单模型参数量每年增长1010倍“海洋之光”超级计算机(国产超算)512块GPU大算力腾讯太极机器学习平台昇腾AI基础软硬件平台16块GPU大数据
8、量1.9TB 图像292GB 文本中文多模态数据集M6-Corpus五大跨模态视频检索数据集基于万条小规模数据集数百 G 级别不同领域的高质量语料模型类型多模态预训练模型图、文、音三模态“八卦炉”(脑级AI模型)M6大模型“混元”HunYuan_tvr紫东太初孟子大参数174万亿(与人脑中突触数量媲美)10 万亿万亿千亿10亿商汤AIDC,峰值算力3740Petaflops3-计算机视觉模型计算机视觉模型书生(INTERN+)某视觉模型100亿300亿商汤科技商汤科技等企业清华大学等1阿里腾讯280 块 GPU鹏城云脑(2048 块CPU)和百度飞桨4095(Pflops-day)/2128
9、张GPU3390 亿条文本数据纯文本和知识图谱的4TB 语料库5000GB 高质量中文数据集NLP 大模型NLP 大模型NLP 大模型Megatron-TuringERNIW 3.0 Titan源 1.05300亿2600 亿2457 亿微软和英伟达百度和鹏程实验室浪潮信息鹏城云脑和全场景 AI 计算框架 MindSpore,2048 块GPU40TB 训练数据盘古系列大模型千亿3640(Pflops-day3)/上万块V100 GPU 组成 gao 带宽集群算力超过万亿单词的人类语言数据集GPT3.51750 亿OpenAI华为云中科院自动化所澜舟多模态预训练模型结合人类参与强化学习复旦大学
10、超算中心-对话式大型语言模型MOSS百亿复旦大学在现代人工智能领域,算力扮演着推动创新、实现突破的核心驱动力。算力、算法、数据和系统架构等多个方面的综合优化对于大规模模型训练的成功至关重要。从技术层面看,在大模型的研发过程中,预训练、微调和模型推理等环节是核心关键因素和主要计算特征。千行百业ALL In AI,算力成为智能化升级的核心支撑AI快速发展正在推动各行业的数智化转型,大模型为千行百业提供了创新解决方案。通用大模型侧重发展通识能力,行业/场景大模型侧重发展专业能力,模型赋能行业有效的提升了效率、降低成本及优化决策过程。算力支撑成为了AI产业发展的关键,也是实现AI技术在各行业广泛应用的
11、基础。目前大模型在广告、传媒、教育、金融等领域快速落地应用,AI算力与各行业深度融合,将加速产业升级和数字化转型进程。算力基础设施AI芯片AI服务器智算中心云服务智算一体机基础模型NLPCV多模态科学计算预测行业模型广告传媒金融零售交通政务教育医疗工业场景模型及应用推荐搜索智能客服代码生成智能风控自动定价自动驾驶智能监控智能调度教学和评分助手智能医学影像智能药物研发通识数据行业数据场景数据广告探索孵化期试验加速期采纳成长期0%100%目标市场渗透率软件教育传媒金融游戏出行医疗电商制造建筑能源农业落地成熟期发展阶段图1:大模型赋能各行各业图2:主要行业大模型应用阶段示意图数字基础设施加快建设,智
12、能算力增长势头强劲数字经济成为全球经济增长的活力所在。2022年,全球51个主要经济体数字经济同比名义增长7.4%,高于同期GDP名义增速3.2%,持续为全球经济平稳回升注入动力。数字经济快速发展推动数字基础设施建设步伐加快。算力作为重要的数字基础设施,算力结构不断调整。全球算力主要由通用算力、智能算力和超算算力组成。通用算力作为基础,满足广泛的日常计算需求;智能算力则在新兴技术领域发挥关键作用;超算算力针对特定高端需求提供强大计算能力。数据显示,2023年底全球算力总规模约910EFLOPS,其中,智能算力从2021年的113EFLOPS增长至2023年的335EFLOPS,增速远超其他。3
13、984985511131423351010240100200300400500600202120222023通用算力智能算力超算算力图1:2021-2023年全球算力规模(单位:EFLOPS)通用算力智能算力超算算力技术特点一般主要由CPU芯片提供计算能力,适合计算复杂度适中的云计算、边缘计算类场景。一般由GPU为代表、FPGA、ASIC等AI芯片的加速计算平台提供的算力,侧重于处理和分析大量数据,执行复杂计算任务。由超级计算机等高性能计算集群所提供的算力,注重双精度通用计算能力,追求精确的数值计算。应用场景应用范围广泛,如科学研究、工程设计、商业分析、医学诊断等。主要用于人工智能的训练和推理
14、计算,如语音、图像和视频的处理等。主要用于尖端科学领域的计算,如行星模拟、药物分子设计、基因分析等。图2:不同算力的重点应用领域国家层面统筹布局,陆续出台多项政策大力支持算力发展时间发文部门文件名称主要内容2024.10国家发展改革委员会国家数据标准体系建设指南要强化基础设施互联互通、算力保障和流通利用标准建设,为数据资源、数据技术、数据流通、融合应用提供支撑。2024.09国务院办公厅国务院办公厅关于加快公共数据资源开发利用的意见繁荣数据产业发展生态。将数据产业作为鼓励发展类纳入产业结构调整指导目录,支持数据采集标注、分析挖掘、流通使用、数据安全等技术创新应用,鼓励开发数据模型、数据核验、评
15、价指数等多形式数据产品。围绕数据采存算管用,培育高水平数据要素型企业。聚焦算力网络和可信流通,支持数据基础设施企业发展。落实研发费用加计扣除、高新技术企业税收优惠等政策。支持数据行业协会、学会等社会团体和产业联盟发展,凝聚行业共识,加强行业自律,推动行业发展。2024.03中央人民政府政府工作报告适度超前建设数字基础设施,加快形成全国一体化算力体系,培育算力产业生态。2023.12国家发展改革委员会关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见(发改数据20231779号)到2025年底,普惠易用、绿色安全的综合算力基础设施体系初步成型,东西部算力协同调度机制逐步完善,通用算力
16、、智能算力、超级算力等多元算力加速集聚,国家枢纽节点地区各类新增算力占全国新增算力的60%以上,国家枢纽节点算力资源使用率显著超过全国平均水平。1ms时延城市算力网、5ms时延区域算力网、20ms时延跨国家枢纽节点算力网在示范区域内初步实现。算力电力双向协同机制初步形成,国家枢纽节点新建数据中心绿电占比超过80%。用户使用各类算力的易用性明显提高、成本明显降低,国家枢纽节点间网络传输费用大幅降低。算力网关键核心技术基本实现安全可靠,以网络化、普惠化、绿色化为特征的算力网高质量发展格局逐步形成。2023.10工业和信息化部算力基础设施高质量发展行动计划推动算力结构多元配置。结合人工智能产业发展和
17、业务需求,重点在西部算力枢纽及人工智能发展基础较好地区集约化开展智算中心建设,逐步合理提升智能算力占比。推动不同计算架构的智能算力与通用算力协同发展,满足均衡型、计算和存储密集型等各类业务算力需求。2023.3科技部关于开展国家新一代人工智能公共算力开放创新平台申报工作的通知为贯彻落实国家新一代人工智能发展规划(国发201735号),做好“国家新一代人工智能公共算力开放创新平台”(简称“公共算力平台”)启动建设工作,根据国家新一代人工智能公共算力开放创新平台建设指引(试行)(国科办高202289号,简称建设指引),结合我国人工智能技术发展和算力基础设施建设的需求,现启动“公共算力平台”建设申报
18、工作。2022.8科技部财政部企业技术创新能力提升行动方案(2022-2023年)推动国家超算中心、智能计算中心等面向企业提供低成本算力服务。支持建设一批重大示范应用场景,鼓励创新型城市、国家自创区、国家高新区、国家农高区、国家新一代人工智能创新发展试验区等发布一批应用场景清单,向企业释放更多场景合作机会。国内重要的算力政策文件内容各省市积极响应,通过政策引导和支持推动地方算力发展各省市通过政策引导和支持,推动地方算力资源的开放共享、数据中心的集约化发展、算力网络的一体化建设,以及算力与实体经济的深度融合,从而加速AI应用的落地和数字经济的发展。省市时间文件名称主要内容山东2024.06山东省
19、算力基础设施高质量发展行动方案强化多元算力协同部署。引导通用算力、智能算力、高性能算力中心等合理梯次布局,支持重点企业建设智算中心,适度超前提高智能算力占比。推进通用算力中心规范有序、规模集约发展。重点在人工智能发展基础较好、产业需求旺盛的地区集约化开展智算中心建设,支持济南、青岛等市用好人工智能创新应用先导区、创新发展试验区,构建多元异构的千卡级别、万卡级别智能算力集群。引导济南、青岛国家级超算中心深度融入国家分布式超算互联网系统,争取建设中国算网山东节点,打造国际一流的超算中心。河北2024.05关于进一步优化算力布局推动人工智能产业创新发展的意见到2025年,全省算力规模达到35百亿亿次
20、/秒(EFLOPS)以上,智能算力占比达到35%左右,新增算力基础软硬件设施自主可控比例60%以上。在智能制造、医疗局指动人工智能产业创新健康等优势领域孵化一批行业应用大模型,培育典型应用场景30个。智能产业合作进一步深化,在环京区域打造人工智能产业集聚区,指动一批人工行能合作项目落地实施。北京2024.04北京市算力基础设施建设实施方案(2024-2027)到2025年,基本建成智算资源供岭集群化、有算设施建设自主化、有算能力赋能精准化、街算中心运营绿色化、们算生态发展体系化的格局。到2027年,优化京津冀象算力供给质量和规模,力命自主可控算力满足大模型训账高求,算力能耗标准达到图内领光水平
21、。江苏2024.04江苏省算力基础设施发展专项规划全市“613”产业体系重点企业和在扬从事人工智能研发应用的科研统所,在运河城市算力平台积用非关联方的智能算力资源,凭已签订的算力服务合同获取算力券。算力写求方通过平台购买使用智能算力资源服务的,按服实际支付智能算力费用30%给予支持,给予同一主体每年最高200万元补贴,算力养有效期为12个月。黑龙江2024.03黑龙江省支持智算中心和超算中心建设奖励政策实施细则省工信厅负责对照绩效目标做好事后绩效评价工作,聚焦注重投入产出效益,对政策实施效果和资金使用情况开展“双评价”,提升绩效评价质量和实效。健全评价指标体系,将包括但不限于新增智算、超算规模
22、,新增算力服务营收等个性化指标作为产出效益评价重点。加强绩效评价结果应用,将评价结果作为政策调整、预算安排和资金分配的重要依据,对于产出效益未达预期的,对政策延续实施的必要性开展评估,根据评估结果提出应用措施。上海2024.03上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025年)力争到2024年,信息通信行业基本形成布局合理、算网协同、软硬协同、低破高效、数字化特型带动能力突出、产业链更加充备的新型数据中心发展体系,初步建成全图一体化算力网络上海枢组节点,形成与本市数字经济发展方贰相运应,长三南地区协同发展的算力服务发展格局,建成具有跟太乃至全球影响力的高能级算
23、力枢细中心。广东2024.03广东省算力基础设施高质量发展行动暨“粤算”行动计划2025年,在计算方面,算力规模达到38EFLOPS,智能算力占比达到50%,建成智能计算中心10个。浙江2024.03关于发展计算产业 打造算力强区的若干政策(征求意见稿)力争到2025年,全区集成电路产业规模达400亿元,网络通信产业规模达850亿元。报进机州人工智能计算中心建设扩容,基于全核肉主技术路绒的公共算力规模达到 500P,培育等化5个具有行业影响力的专用模型,人工智能赋能标杆企业8家、其型应用场景10个。南京2024.03南京市推进算力产业发展行动方案2025年,全市数据中心总规模达到25万标准机架
24、,总算力超8.5EFL0PS(FP32),可统筹智能算力超6000PFL0PS(FP16)。贵州2024.02贵州省算力基础设施高质量发展行动计划(2024-2025)推动算力结构多元配置。结合人工智能产业发展和业务需求,重点在西部算力枢纽及人工智能发展基础较好地区集约化开展智算中心建设,逐步合理提升智能算力占比。推动不同计算架构的智能算力与通用算力协同发展,满足均衡型、计算和存储密集型等各类业务算力需求。国内典型城市大力发展算力的相关政策汇总目 录Part 01时代动力,AI新世代繁荣的发动机Part 02层见叠出,复杂工程需要多样手段解决Part 04实践落地,AI算力应用的新标杆Part
25、 05来日方长,AI新世代下的不断探索Part 03各取所需,市场激发AI算力的选择思考满足大模型需求的算力是一项复杂的系统工程满足大模型需求的算力是一项涉及多层面复杂系统工程,因为它不仅需要在计算能力上实现指数级增长,以应对大模型的庞大惨数量,还要在数据传输、存储和处理等多个维度深度优化。算力系统的设计远非简单的算力资源堆砌,而是需要解决低时延数据交换、节点间计算负载的均衡分配、消弥算力堵点,预防硬件故障等一系列技术难题。且不同应用场景对算力效率、调度灵活性、扩展性、安全稳定、成本效益等方面有着各自独特的需求。这些需求的多样性和复杂性要求在构建算力基础设施时,需要进行综合规划和设计,以实现高
26、效、经济且可持续的算力供给。数据&模型准备算力准备&模型训练推理部署&集成数据处理算力准备&系统调优大规模训练&微调推理部署公共开放数据处理模型设计行业特征工程计算平台系统设计AI集群平台建设系统调试与上线代码调试模型训练代码调试模型微调转换剪枝蒸馏量化在线推理在离推理集成行业私有数据处理指令微调数据处理模型微调设计模型层/优化器设计模型架构设计超参定义和范围标定防攻击/故障隔离API开放模型预训练下游任务微调压缩/转换优化/部署大模型的研发、部署及集成是一项复杂的系统工程大模型在不同场景的算力需求及工程难度训练预训练二次训练全参微调局部微调算力需求超大规模千卡万卡大规模数百卡千卡较小规模单卡
27、8卡起步小规模单卡1卡起步工程难度很高TP/DP/PP并行,海量数据高基模选择,高质量数据较高十万百万条指令集一般万条指令集推理To C推理To B中心To B边缘算力需求超大规模千卡以上大规模数百卡小规模数十卡工程难度很高极致性能高融合高效较高灵快轻易AI算力具备软硬件的复杂性,并且以不同产品/服务/方案为应用赋能基于AIGC的技术栈,算力层作为上层模型及应用的重要支撑应用层中间层(接口层)模型层框架层算力层数据层数据资源(数据采集、清洗、标注等)从模型到应用闭源闭源模型应用基于公共网络平台的应用,单一平台应用网络平台应用提供基于本地边缘或端侧交互的应用边缘或端侧应用数据中心工具与模型部署和
28、调用API数据中心与模型API基于预训练模型的场景/产品适配Prompt优化与模型微调商业化的预训练模型,通过API调用非开源预训练模型开源模型共享平台模型Hub代码及权重开源的预训练模型,一般可免费试用开源模型用于训练或云部署的深度学习框架和中间件等,包括PyTorch、TensorFlow深度学习框架与中间件等单芯片、多卡互联、存储、网卡、PCB、BMC、电源等芯片层服务器、路由器、交换机、光模块等IT设备及机架其他非IT设备服务器层通用算力中心、智算中心、超算中心数据中心(智算中心)层PaaS、MaaS,边缘计算等云服务(智算云服务)层服务器管理软件等通过软硬件结合方式实现算力资源使用效
29、率提升智算服务平台芯片软件栈,解决卡内、卡间的互联及加速算力优化解决方案提升算力在AI应用时的利用率 AI 算力仍旧是建设在过往的算力架构基础上,市场概念可以覆盖芯片、服务器、智算中心、云服务以及相关的产业链相关方案 由于构建AI算力底层的硬件产品的复杂性(计算芯片、存储产品的架构、方案等多样性),结合用户需求的多样性,因此可衍生出大量的产品方案生成式AI的突破依赖于算力的“暴力美学”,应用依赖于算力在场景中的释放AI技术在实际应用中包括两个环节:训练(Training)和推理(Inference),AIGC的算力需要考虑训练及推理两个方面。训练是指通过数据开发出AI模型,使其能够满足相应的需
30、求,一般为AI技术的研发。因此参数量的升级对算力的需求影响大。推理是指利用训练好的模型进行计算,利用输入的数据获得正确结论的过程,一般为AI技术的应用。推理部署的算力主要在于每个应用场景日数据的吞吐量。训练推理算力模型数量参数量训练数据量训练算力核心影响因素训练次数微调阶段训练阶段模型数量应用场景单用户数据量推理算力核心影响因素用户活跃度应用时间当下模型参数量大规模提升,同时影响训练数据量及训练次数,推动训练阶段算力及对应的微调阶段算力提升模型参数数值基本确定,随着应用场景、适用人群数量增加,导致推理数据量及模型数量增多,进而使推理算力需求井喷发展训练完的模型参数量也会影响推理端算力复杂工程的
31、算力落地理念:需要基于目标与资源的分配去达成工程学平衡应用落地的算力选择,更应该强调最优解,而非最大解。在实现AIGC的技术落地过程中,模型的参数量及涌现结果固然重要,但模型在运行过程中所需的算力成本、能耗成本、运营成本等是否能匹配AIGC技术提供的效果及价值突破更为重要。以终为始,贴合行业需求,实现目标与资源平衡,是AIAI新世代下的算力选择依据训练需求(一次开发)核心目标:基于行业Know-How需要实现的AIGC技术功能拆分,实现精准的需求分析其他成本制约因素行业Know-How不仅仅表现在丰富的行业实践经历,而是深入理解客户的业务需求,并且通过管理项目开发的流程完成,在细化需求中寻找到
32、主要矛盾并解决。Why(用户分析)How(项目执行)基于用户的细分行业属性,熟悉细分行业的需求价值基于用户的业务流程细节,对用户的需求矛盾分析基于用户的资源能力,明确用户的负担上限在不同阶段和层面对项目的工作内容从主项、分项、子项甚至单体的各个部分进行拆分(例如采用WBS),实现项目关键节点的管理,完成项目人员的协同、管理、分工及时间资源调配对风险的预知、判断及合理控制预训练基于需求进行fine-tune训练数据量技术实现路径考虑到模型训练“黑盒”机制与多次调优,所需算力与开发过程强相关时间成本(是否尽快抢到实践化的落地)能耗成本(云服务或者算力的使用成本)人员成本(工程化协作的团队)推理需求
33、(长期运营)资源分配:通过选择合适的技术路径实现算力的成本优化参数量规模算法结构模型种类(算力需求系数相关安全性与稳定性网络通信模型规模(参数稀疏程度)时延数据吞吐量模型推理阶段的算力主要为运行模型和数据处理,并且需要考虑产品的使用体验功能需求决定推理能力,推理能力取决训练水平,有限算力资源要进行主次的优先选择随着推理成本的降低,推理端算力需求将持续扩大(1/2)GPT-4$36/1MtokensGPT-4 Turbo$14/1MtokensGPT-40$7/1MtokensGPT-40$4/1MtokensGPT-4 的价格变化2023年3月2023年11月2024年5月2024年8月86%
34、下降比例 AIGC模型在处理输入和输出时,其计算资源消耗与输入输出的数据量成正比,费用计算基于输入输出的Token数量。以OpenAI 为例,在过去两年里,它将API访问成本降低了99%。具体来看,GPT-3 的API 推理成本从2021年的每千Token 0.06美元降至2022年的0.02 美元,降幅达66%。到2023年,GPT-3.5 Turbo的API推理成本与2021年相比下降了86%。41.6%58.7%32.3%31.2%29.5%27.4%58.4%41.3%67.7%68.8%70.5%72.6%20222023E2024E2025E2026E2027E2022-2027年
35、中国AI服务器工作负载及预测训练推理训练端60%推理端40%英伟达FY2024数据中心推理与训练占比根据英伟达财报,其数据中心的推理占比已经达到40%未来,AI 服务器的工作负载可能以推理为主随着推理成本的降低,推理端算力需求将持续扩大(2/2)推理所需Token 数远超训练所需Token 数ChatGPT 推理生成超1T Tokens/天GPT 3.5 2T TokensGPT 4 10T Tokens提高MFU,推理场景比训练场景面临更多技术挑战推理成本训练成本2N FLOPs/token6N FLOPs/tokenPrompt数量/生成Token训练Tokens数量成本/FLOPMode
36、l FLOPs Utilization=xxx推理成本远超训练成本 未来AI应用推理的成本可能会远超训练。大模型训练是阶段性的需求,训练数据通常是固定的,比如几万亿、几十万亿token的量级,且客户集中度高。但做推理,可能每天都是几万亿到10万亿Token,一周就超过了训练的计算量。模型推理成本下降是超级应用爆发的前提条件之一。AI 推理成本算力消耗推理成本大幅下降(10X-100X)推理算力爆发训练算力爆发2024推理算力未来可能爆发的示意图 当前AI 应用需求正在发生变迁,大模型正从 To VC 泡沫炒作阶段走向 To B 落地阶段,未来可能走向 To C 阶段,当前制约在于 AI 推理成
37、本,成本降低后将迎来应用爆发。企业可以进行推理成本优化,包括硬件降本(如硬件梯次利用)、算力调度(按需求波峰波谷配置资源)和推理加速。目 录Part 01时代动力,AI新世代繁荣的发动机Part 02层见叠出,复杂工程需要多样手段解决Part 04实践落地,AI算力应用的新标杆Part 05来日方长,AI新世代下的不断探索Part 03各取所需,市场激发AI算力的选择思考AI的算力资源选择,需要结合自身部署能力及应用需求综合考量云服务智算中心智算硬件芯片影响算力资源利用的维度(算力提供方在AI算力领域的Know-How及经验)算力直接使用者所需技术要求 芯片的选择及适配 智算硬件的选择及适配
38、智算中心的选择及适配 接入方式、算力调度、需求分配、弹性扩展、高效稳定、算法优化、通讯传输、第三方生态、故障排查、大模型相关数据及训练工具包(生态)、模型的纳管及生态合作、云边端协同 芯片的选择及适配 智算硬件的选择及适配 租户管理、配额管理、运维管理、资源及作业调度管理、系统监控、安全及稳定 芯片的选择及适配 硬件选型及适配(如内存)、异构算力的调度及配合、网络传输、软件优化、集群架构、环境优化 内存/显存、片内互联及片间互联、AI适配生态工具(包括适配算法及其他硬件)、物理环境支撑、折旧速率 核心计算单元的算力参数 对应的运算精度 单元数量需要从芯片层面解决工程问题,包括芯片互联、构建网络
39、、适配从应用到硬件的环境,工作量大且繁杂,需要具备从0到1的经验丰富的技术团队支持通过服务器等硬件完成自有算力的部署,环境调试,完成大量不同硬件设备的选型、优化及稳定性保障,需要具备成熟的项目案例经验按需取用、灵活扩展、无需各IT系统的复杂运维,直接在完成优化的环境下进行开发可按需适配资源及弹性适配,部署时间更快,可以选择适配AIGC产品/服务的算力资源,减少对于AI算力环境优化的时间及人力成本算力资源的维度不仅包括算力规模大小,要考虑算力部署及运营过程中可以利用的程度。算力是工程化结果,是从芯片到资源服务的多层次构造,需要算力服务方自身在自身专业能力及经验案例上的实际Know-How作为基础
40、。不同需求程度的用户不能唯算力的参数而论,而是要结合自身对于算力部署的能力进行进一步探究。AI芯片是智算产业的核心环节,AI芯片未来发展空间巨大83%50%51%32%9%25%28%45%8%25%21%23%0%10%20%30%40%50%60%70%80%90%100%机器学习服务器推理服务器高性能服务器基础服务器CPU、GPU成本内存、存储器成本其他图1:服务器主要成本构成1592663486529111228161102004006008001000120014001600180020202021202220232024E2025E2026E图2:2020-2026年中国AI芯片市
41、场规模(单位:亿人民币)芯片作为算力产业的基石,为智能算法和应用提供了不可或缺的计算能力。在服务器成本中,核心芯片如GPU占据了超过80%的比重。掌握自主可控的AI芯片技术,对于智算产业的持续发展至关重要。随着人工智能应用场景的不断拓展,市场对高性能AI芯片的需求日益增长。同时,存算一体、光通信等前沿技术的突破,为AI芯片产业注入了强劲的增长动力。数据显示,2023年中国AI芯片市场规模已达到约652亿人民币。预计到2026年,市场规模将显著增长至1611亿人民币,AI芯片市场正迎来快速发展的黄金时期。2023.10.17壁仞科技及其附属关联公司摩尔线程及其附属关联公司2023.03.02龙芯
42、中科技术股份有限公司浪潮集团2022.12.15长江存储科技有限责任公司寒武纪及其附属关联公司合肥兆芯电子有限公司2021.12.17长沙景嘉微电子股份有限公司2021.11.26新华三半导体技术有限公司2021.07.09杭州华澜微电子股份有限公司2021.03.08国家超级计算深圳中心2020.12.18中芯国际及其附属关联公司深圳云天励飞技术有限公司2019.06.24曙光信息产业股份有限公司2019.05.16华为及其附属关联公司AI芯片成为中美科技博弈的焦点之一,AI芯片国产化刻不容缓图2:被美国列入“实体清单”的中国半导体企业2023.10美国商务部将壁仞科技、摩尔线程等公司列入实
43、体名单。2023.03美国商务部将浪潮信息、龙芯中科等公司列入实体名单。2022.10BIS对中国实体超级计算机计算芯片和包含此类芯片的计算机商品的禁令,对收到许可证要求限制的外国生产项目的范围扩大到实体名单上中国境内的28家现有实体;针对=128层的NAND存储芯片增加了新的许可证要求;限制美国人员在没有许可证的情况下支持中国某些半导体制造设施的研发和集成电路的制造;将包括长江存储、中国科学院大学等科研院校在内的31家实体列入未经核实名单(UVL)。2022.08美国通知英伟达向中国和俄罗斯出口A100和H100芯片需新的许可证要求。2022.08BIS公告美国准备对EDA等四项技术实行出口
44、管制。2022.07美国半导体厂商收到美国商务部规定,要求不得向中国供应用于制造=14nm芯片的设备。2022.07美国众议院通过芯片与科学法案,主要内容包括:分5年提供527亿美元用于半导体制造激励计划、研发投资、税收抵免,其中美国芯片基金共500亿美元,390亿美元用于鼓励半导体制造企业,110亿美元补贴芯片研发;法案要求获得补贴的半导体企业未来10年内不得在中国大陆新建或扩建先进制程的半导体工厂。2020.12中芯国际被纳入实体名单,对用于1000P大型智算中心百亿元及以上京津冀、长三角、珠三角AI大模型、自动驾驶、空间地理等人工智能技术领域3001000P中型智算中心10亿元以上一线、
45、新一线及二线城市人工智能产业链或细分行业智能化集群100P小型智算中心10亿元以下二线及以下城市企业智能化建设或小型人工智能产业集群70%10%20%多种智算中心建设及运营模式并行,适配不同算力需求政府或通过平台公司投资建设智算中心。运营上由平台公司运营,或引入第三方企业参与运营。该模式多适用于发达地区,本地有强算力需求。引入运营商或第三方企业投资运营政府提供电力、土地等优惠政策,如每年购买不少于2000万算力补贴,连续购买5年平台公司投资建设智算中心企业与平台公司或地方性国资企业成立合资公司,负责公司人、财、物管理,其他部门可采用外包等方式政府投资+企业运营政府平台公司/企业智算中心投资运营
46、企业自投自运+政府补贴企业政府智算中心自运政策补贴自投平台企业投资+联合运营平台公司合资公司智算中心投资联合运营企业目前建设运营模式主要有政府投资建设、企业建设运营、政府购买服务、政府和社会资本合作等模式,主要产业合作方如下:云厂商及AI科技企业具备智算中心操作系统和AI算法的开发部署能力三大通信运营商拥有全国布局的网络基础资源、数据中心资源和云资源池第三方数据中心厂商具备高标准等级的算力硬件和运维能力,为高性能算力和节能方案提供支撑从目前建设情况看,根据算力规模,智算中心可划分为三大类:超级智算中心:1000P以上的多为公共用途,承担枢纽节点角色中型智算中心:100P到1000P多服务于产业
47、集群类需求,当前落地项目数量更多小型智算中心:100P以下更多以企业级零散需求为主AI服务器需求激增,带动市场规模快速增长AI服务器是智能算力的重要载体,在全球范围内迅速扩张。2023年,全球AI服务器市场规模突破500亿美元,增幅高达95.8%,预计到2018年,市场规模有望突破1000亿美元,五年的年复合增长率预计为14.5%。中国AI服务器在AI及智算产业的高速发展下持续攀升,从2020年的149亿人民币增长至2023年的692亿人民币。随着AI应用的成熟和普及,市场对于AI服务器的需求预计继续增长。预计到2028年,中国AI服务器的市场规模达到1433亿人民币。图2:2020-2028
48、年中国AI服务器的市场规模(单位:亿人民币)149273341692613777970118714330.0%83.2%24.9%102.9%-11.4%26.8%24.8%22.4%20.7%-20.0%0.0%20.0%40.0%60.0%80.0%100.0%120.0%020040060080010001200140016002020202120222023 2024E 2025E 2026E 2027E 2028E图1:2020-2028年全球AI服务器的市场规模(单位:亿美元)15118026351545156669784910160.0%19.2%46.1%95.8%-12.4%
49、25.5%23.1%21.8%19.7%-20.0%0.0%20.0%40.0%60.0%80.0%100.0%120.0%0200400600800100012002020202120222023 2024E 2025E 2026E 2027E 2028EAI服务器出货量快速增长响应下游应用需求AI服务器的出货量从2020年的15万台激增至2023年的36万台,实现了显著的增长。其中,训练型服务器占据市场主体地位,但随着生成式AI应用的发展,推理型服务器预计将逐渐成为市场主流互联网行业在大模型训练和推理方面处于领先地位,占据了AI服务器年出货量的半壁江山。随着垂直领域大模型在金融、能源、交通
50、、教育、政务以及智能制造等行业的广泛应用,对AI服务器等智能计算资源的需求预计将持续稳步上升。152328363746566881010203040506070809020202021202220232024E2025E2026E2027E2028E图1:2020-2028年中国AI服务器出货量(单位:万台)图2:2020-2028年中国AI服务器出货量行业分布59%57%47%55%52%55%57%57%56%12%17%23%14%16%15%15%15%16%10%9%6%8%9%9%8%8%8%4%3%6%8%6%5%4%4%3%3%4%4%4%5%5%6%6%5%3%3%5%4%4
51、%2%3%3%3%8%7%9%8%9%8%8%8%9%0%10%20%30%40%50%60%70%80%90%100%20202021202220232024E2025E2026E2027E2028E互联网服务政府电信金融工业制造其他“云+AI”双轮驱动,成为云厂商扩大AI算力投入与产出的新动力从投入端来看,2005-2023年,Amazon、Micosoft、Google及Meta四大云厂商资本开支整体呈现扩大趋势。2005-2022年,海外云厂商资本开支的增长驱动是云计算业务(IaaS+PaaS+SaaS)的持续增长;进入2023年,云计算+AI成为新的双轮引擎,云厂商通过加强AI算力建
52、设来满足大模型训练及推理需求。从收入端来看,得益于MaaS服务带动,Micosoft、Google、Amazon云收入增速自2023Q3逐步企稳,2024Q1三家公司的云收入同比增速分别为31%、28%、17%。MaaS成为云厂商新的增长动力。20415163357581112179230236305387647649900121814601429199322112399050010001500200025002005200620072008200920102011201220132014201520162017201820192020202120222023 2024E 2025E 2026
53、EIaaSPaaSSaaSMaaS云服务初期AWS率先布局Microsoft Google正式推出云服务云服务成熟企业上云加速线上办公需求增长生成式AI快速发展图1:AI成为推动海外云厂商资本开支增长的驱动力(单位:亿美元)AI驱动云计算市场迎来新一轮增长,加速产业格局重构322945506165837811780159852140454.4%40.9%35.5%35.9%40.6%35.7%33.9%0.0%10.0%20.0%30.0%40.0%50.0%60.0%05000100001500020000250002021202220232024E2025E2026E2027E纵观整个行业
54、,我国云计算市场展现出强劲的增长势头。2023年,我国云计算市场规模达6165亿元,同比增长35.5%。随着AI原生带来的云计算技术革新和大模型规模化应用逐步落地,云计算产业预计将开启新一轮增长周期。到2027年,市场规模有望达到21404亿元,增长潜力巨大。在市场格局方面,阿里云、天翼云、移动云、华为云、腾讯云和联通云六大云服务商共占据了我国公有云71.5%的市场份额。随着AI应用的落地,中腰部厂商凭借创新技术与行业经验在推动产业升级方面将发挥重要作用,云厂商竞争格局或将产生新变化。21.31%17.07%12.83%9.41%7.15%3.73%28.50%阿里云天翼云移动云华为云腾讯云联
55、通云其他图1:2021-2017年中国云计算市场规模及增速(单位:亿人民币,%)图2:2023年中国公有云IaaS厂商占比云服务模式转变,形成涵盖基础设施、模型平台、应用生态的MaaS服务架构全球云厂商正在围绕生成式AI重新布局MaaS服务架构,构建大模型端到端服务体系。以AI芯片为核心构建基础设施,提供大模型训练、推理所需的算力;利用模型平台集成自研、第三方或开源大模型,支持应用开发;直面业务,将大模型深度赋能行业/场景,构建“AI+”创新生态。IaaSPaaSMaaSSaaSX86 CPU+NVIDIA GPUArm架构CPU Graviton训练芯片Trainium推理芯片Inferen
56、tiaX86 CPU+NVIDIA GPUX86 CPU+NVIDIA GPUArm架构CPU Cobalt训练推理/芯片MaiaArm架构CPU Axion训练/推理芯片TPUBedrockAzure AI 平台Vertex AI Platform其他第三方开源模型Claude 3 系列Titan系列GPT+Sora系列WizardLM系列Claude 3 系列Gemini系列CodeWhispere编程助手S supply Chain 供应链助手、Connec联络中心、QuickSight报表BedrockAzure AI 文档/视觉/语音CopilotAzure AI StudioAzu
57、re OpenAI服务Recommendations AI商品推荐、TranslationAI翻译、Vedio AI 视频分类Vertex AI AgentBuilder服务器、存储、网络等其他芯片模型平台自研模型投资模型其他模型AI应用开发平台AI应用海内外云厂商在过往的基础架构上围绕AI构建新的创新生态从模型到应用闭源闭源模型应用基于公共网络平台的应用,单一平台应用网络平台应用提供基于本地边缘或端侧交互的应用边缘或端侧应用数据中心工具与模型部署和调用API数据中心与模型API基于预训练模型的场景/产品适配Prompt优化与模型微调商业化的预训练模型,通过API调用非开源预训练模型开源模型共
58、享平台模型Hub代码及权重开源的预训练模型,一般可免费试用开源模型用于训练或云部署的深度学习框架和中间件等,包括PyTorch、TensorFlow深度学习框架与中间件等应用层中间层(接口层)模型层框架层数据层数据资源(数据采集、清洗、标注等)硬件基础设施服务算力层云服务IaaSPaaS用户MaaS模式基于传统云服务的升级:基于传统模式的IaaS及PaaS支撑的AI能力释放代表MaaS可以提供的服务MaaS可以基于模型能力直接提供基于AI的云服务方案云服务多重优势助力AI应用72%28%自托管(内部部署或CSP GPU)模型端点(API访问)52%38%10%云服务商(如Amazon)模型提供
59、商(如OpenAI)其他端点(如Databricks)图1:云在模型购买决定中具有较大影响力交付流程按需付费,即刻交付就近接入,超低时延招标到货硬件安装软件调试业务割接 验收1.5月左右1.5月2月1月左右0.5月0.25月1.5月左右分钟级零0.5月0.25月云服务分钟级资源开通上线调研数据显示,企业的大模型部署中72%的企业选择的使用模型API服务,其中52%来自云厂商托管。由此可见,云服务商在模型购买中具有较大的影响力,企业出于安全考虑等因素会通过现有云服务商购买模型。Azure用户更喜欢OpenAI,而Amazon用户更喜欢Anthropic或Cohere。此外,使用AI云服务有诸多优
60、势:按需付费,灵活调用资源,实现成本控制;推理服务可就近接入,实现低时延;满足云、边、端多样化算力部署;提供了丰富的API和开发工具,使得开发者可以快速开发和部署新应用等。自建数据中心总耗时3 3个月以上图2:云服务的优势针对生成式AI的算力解决方案可提升企业及产业AI落地效率增强企业市场竞争力通过高效计算和分析能力,企业可以更快地利用AI响应市场需求变化,抢占市场先机。降低初始门槛,加速产品的研发和迭代。推动企业创新发展帮助企业探索新的商业模式,通过生成式AI技术,挖掘出更多的商业机会和市场空间。此外,高效的智算集群为企业提供了强大的创新平台,支持企业进行产品和服务创新,满足消费者不断变化的
61、需求。降低企业运营成本通过更先进的管理方式,实现计算资源的共享和动态分配,从而降低企业在硬件设备上的投入成本。同时,智算集群的自动化管理和维护功能,可以减少企业在IT设备维护方面的人力投入,进一步降低企业的运营成本。提升资源利用率通过资源整合技术,将分散算力池化管理,依据不同应用需求灵活调度,极大提高了资源利用率。这种管理方式使得无论是深度学习模型训练所需的强大并行计算能力,还是多项目并行时的资源动态分配,智算中心都能展现出其不可或缺的作用。推动产业数字化转型对于优势型产业集群,AI集群管理通过构建区域行业云的数字化底座,提供行业特定能力的平台和应用,服务区域特色行业,实现全产业链场景的覆盖。
62、绿色低碳发展通过优化调度算法和资源管理系统,实现了智能与通用算力资源的高效协同,实现了绿色算力的区域发展,协同赋能产业绿色低碳转型价值分析彩讯股份AI原生云计算解决方案AICloud,集合了下一代AI原生云计算网络架构、超大规模算力集群管理平台、高性能大模型训推平台三层架构,旨在帮助企业快速构建大规模算力集群、部署运营专属大模型。基于此方案,GPU集群峰值算力利用率最高可达55%,可节省25%以上网络设备成本投入。目 录Part 01时代动力,AI新世代繁荣的发动机Part 02层见叠出,复杂工程需要多样手段解决Part 04实践落地,AI算力应用的新标杆Part 05来日方长,AI新世代下的
63、不断探索Part 03各取所需,市场激发AI算力的选择思考AI算力服务商市场变化:产品及服务复杂性提升,推动市场多样性发展备注:*分类及企业数据截至2024年12月,随着AI在多场景、多领域的不断应用,将不断推动更多企业进入AI算力服务领域,未来市场概念可能形成不断分化。*由于版面所限,暂不计入海外企业,仅通过部分示例企业展示市场特点,顺序不分先后。*部分企业具备多个领域的解决方案能力,版面所限,不做一一展示。计算芯片服务器云服务智算中心20242024-中国AIAI算力领域服务商图谱V1.0V1.0智算服务平台各省市智算中心说明:文中的智算服务平台一般指为解决算力调度、管理、资源匹配及性能优
64、化的一类型解决方案提供商,可根据用户需求提供多类型、不同交付模式的解决方案。存储重点厂商产品及服务能力分析博大数据公司简介:博大数据作为领先的融合算力基础设施服务商,核心团队拥有超过20年的行业运营管理经验,积累了丰富的通用算力、智能算力及边缘算力资源,并具有强大的算力建设能力、平台服务能力以及算力运营能力,致力于打造一体化数据与算力融合的数字基础设施平台,赋能数字经济可持续发展。博大数据已在全国范围内部署了以北京、上海、广州、深圳、成都、武汉为核心的环首都、长江经济带、粤港澳大湾区及成渝区域的超大规模算力基础设施集群,其总面积超过30万平方米,拥有机柜数近6万个。不仅满足企业在核心城市的业务
65、布局,还将进一步助力企业核心与边缘形态共存的算力集群演变。此外,博大数据积极进行国际化布局,不断通过资源整合打造全球数字生态,加速拓展海外市场。20年+可靠运营6w+机柜最佳实践头部供应商生态平台多产业客户交付自身资金雄厚多梯队人才建设工程化交付+预制化交付AI智能运维管理平台光伏AI垂直制冷能效控制热管氟泵分布式制冷供电模块其他AI算力中心机柜级交付AI服务器算力级交付自有资源代建代维算力网络算力调度算力服务全楼定制隔笼定制模块级交付楼层级交付全楼定制量身定制提质增效核心能力共有资源客户资源基础服务:遵循模块化设计理念设计并建造超大规模算力中心,展现出极高的灵活性和可扩展性,配备有定制化的机
66、电和制冷设备,为客户提供安全可靠且具备容错能力的数据中心环境。算力及运维服务:基于自建的智算中心,为客户设计和建造智算中心、销售和租赁算力设备、提供算力租赁服务、优化算力网络。同时通过AI赋能针对所有数据中心客户提供监控、巡检、IT运维和机房改造服务。增值服务及解决方案:为客户提供灾备、云迁移、安全等增值服务,构建服务生态,推动产业数字化;根据各行业客户需求为其量身定制上云下云、数字韧性、数据安全等解决方案。融合1打造最佳TCO2绿色低碳3高效运维服务4多元化客户5一是拥有传统数据中心、大型智算中心和边缘智算中心,可以满足客户通用算力、智能算力和边缘算力的需求;二是国内业务与国际业务的融合,拥
67、有全球化经验;三是生态合作的融合,能够同时支持多种GPU服务器。博大数据通过搭建智算算力平台、进行技术创新,依托高弹性、高管理、高可靠、高算力、高能效、高安全的六大智算理念,为客户降低TCO。综合采用液冷、蒸发冷热管系统、电力模块、光伏、余热回收等技术,降低PUE,提升效能,提升算力供应能力。拥有500余名专业运维人员,核心团队经验丰富,熟知行业规范。依托全国15个数据中心,形成互补互备网络,应急响应迅速。博大数据已服务超过2000家优质客户,涵盖金融、互联网、云厂家、游戏等多个行业。算力基础设施及服务竞争优势连接类服务:算力中心通过全光网络连接所有主流运营商,并与领先的云计算公司和互联网公司
68、互联互通,帮助客户快速建设算力中心、云和客户办公室之间的高速互联网络。树立智算中心产业标杆,让澎湃算力触手可及,助力产业转型升级项目背景:博大数据与恒为科技合作,在前海智算中心建立了“恒为智云前海智算中心”,旨在为粤港澳大湾区构建集高效能、智能化与安全性于一身的算力高地,树立全区域智算中心产业标杆。“恒为智云前海智算中心”是广东省第一个由民企投资、民企运营的华为昇腾集群,也是第一个支持深圳上海两地实现大带宽低延时专网打通计算资源的华为昇腾集群。该算力集群面向大湾区用户,辐射全国,为各行各业的数智升级提供算力服务。博大数据深圳前海智算中心基础设施投资20亿元,总面积超过5万平方米,并支持高功率深
69、度定制,整体按照国家A级标准建设,一期可支持算力规模达40000P。已于2024年3月开园,并且首批算力已经成功启用。恒为智云前海智算中心位于博大数据深圳前海智算中心M区,使用率已超过80%。凭借专业优势以及智能可视化系统的技术优势,已发展成为“小而美”的国产精品智算中心。高算力高能效高弹性博大数据深圳前海智算中心整体规划容量约为15000个标准机柜,一期可支持算力规模达40000P。采用创新的冷却架构结合风冷和液冷技术,提高整体能效,延长设备寿命。分布式系统,弹性模块化设计,适配企业级服务器、云、智算服务器的弹性需求。高可靠高安全高管理多层次技术架构,为多场景应用提供稳定可靠的服务保障。采用
70、高级身份验证、加密协议和入侵检测系统等,确保智算服务器的安全管理。AI驱动的自动化管理系统,实现智能调度、负载均衡、故障预测等功能。弹性需求:为产业服务的智算中心需要能够灵活扩展,满足不同业务增长和变化需求,需要与云服务等无缝集成,提供灵活的计算资源和存储解决方案。配电系统:需要极高可靠性,能够适应不同设备的电力需求,以及快速部署和调整。算力规模:首批投产300P算力,出租率已超过80%,并计划迅速扩展至2000P。智能可视化系统:拥有自身独具优势的核心产品“智算可视化系统”的应用,实现训推可视化,为智算中心提供资源调度、运维管理、数字孪生、训推可视化、集群测试工具等一体化服务。赋能专业转型升
71、级:作为科技与产业的深度融合体,通过强大的算力支撑,加速人工智能在各行业中的深度融合与应用。建设难点实践效果重点厂商产品及服务能力分析PPIO派欧云公司简介:PPIO派欧云是中国领先的分布式云计算服务商,由 PPTV 创始人姚欣和前 PPTV 首席架构师王闻宇于 2018 年联合创立,公司秉承“汇聚全球计算资源,并为全世界提供服务”的使命,致力于为人工智能、音视频、元宇宙等新一代场景提供高性价比、稳定可靠、高效弹性的一站式智算、大模型及边缘计算服务,助力客户专注应用创新与增长,推动下一个智能时代的加速到来。构建分布式智算云服务汇集模型API服务、Serverless GPUs、GPU容器实例等
72、产品,结合云原生、分布式计算、推理加速等技术,提供更高性价比的一站式AI云服务各类数据中心闲置资源大中小企业闲置算力算力整合调度提供弹性服务大语言模型图片生成/编辑高校科研智慧城市电商资源整合能力城市智算中心客户数据中心边缘数据中心公有云闲置算力中小企业闲置算力西部北部低电价节点GPU 容器实例Serverless GPUs模型 API 服务全模态API服务,一站式解决集成LLM、图像、视频、音频等多种模态大模型API产品特性性能极致的推理加速引擎自研推理加速算法,将LLM推理性能提升10+倍前沿AI技术赋能持续更新和优化前沿大模型API按需付费,节省成本仅需为实际运行时长付费,按秒计费产品特
73、性弹性伸缩,高可用性业务高峰自动扩容,低峰自动缩容,支持负载均衡私有镜像,快速部署私有镜像部署,无需对代码进行大量适配,切换门槛低便捷的多框架AI开发支持丰富的一键部署镜像,涵盖主流机器学习框架(如TensorFlow、PyTorch)、底层镜像(如cuDNN、CUDA),及推理框架(如TensorRT)和即开即用的Llama3、Stable Diffusion产品特性全球覆盖,模型下载加速依托PPIO分布式智算网络,提供大容量带宽,实现Hugging Face、Docker Hub等大模型极速下载,网速提升100+倍OpenAPI管理支持通过OpenAPI灵活实现业务调整、资源管理和运维监控
74、,无缝接入现有DevOps体系整合广覆盖智算资源1500+国内外城市县级覆盖4000+全球分布式算力节点10+智算中心1000P+算力30+各模态主流开源模型视频生成/编辑垂领大模型赋能百业广告营销社交娱乐智慧园区分布式云能力异构计算资源池分布式储存资源池多层网络资源池构建中国铁塔智联算力管理调度平台,实现基于本地服务的全国算力广域调度项目背景:中国铁塔是由国务院推动成立的国有大型通信基础设施服务企业,是我国移动通信基础设施建设的“国家队”和5G新基建的“主力军”。中国铁塔依托全国基站和机房资源,提出“算力入园”战略,通过构建统一算力管理平台提升资源融合与场景应用效率。PPIO派欧云助力中国铁
75、塔盘活分布式算力资源,构建全国算力网络,推动人工智能技术在科创园区、高校科研、大型商超、智慧社区、云游戏等场景的应用落地。需求痛点与解决方法项目方案与实施效果铁塔GPU算力机房资源层铁塔GPU算力机房铁塔GPU算力机房多元资源融资调度层算力池弹性扩缩服务快速响应算力协同网络K8S实例敏捷部署资源隔离多维性能监测监控告警全局设备监控日志管理算力调度服务层产品运维算力云(裸金属+虚拟化+云原生引擎+计算框架兼容)基础云计算优化算子加速大模型剪枝模型量化应用服务算力计费AI模型调用请求处理元数据管理应用算力分配算力释放实时调度智能调度策略统一管理接口高校科研大型商超智慧社区云游戏用户请求服务响应请求
76、处理任务优化服务指派容器运行节点分散,资源统一管理难跨时空和场景,提升资源利用率难大模型推理性能瓶颈AI大模型推理对显存、算力和带宽要求极高,传统方法难以兼顾性能和成本,导致响应速度慢、用户体验差。通过协同大模型推理加速技术,可突破性能瓶颈,有效降低资源占用,提升资源分配效率,以满足AIGC应用对低延时、高稳定性的需求。面对跨区域、跨时间、跨场景的多样化需求,异构资源性能差异大,利用率低。通过智能调度算法结合负载预测技术,实现任务需求与算力资源的动态匹配,显著提升系统资源利用效率。算力资源分散且设备类型多样,导致管理复杂。通过研发分布式节点纳管技术,结合自动化监控与故障检测,实现资源状态实时可
77、视化与问题快速定位,提升运维效率。降本资源整合与优化:通过规模化部署和资源共享,运营成本降低35+%。投资回报周期缩短:单台设备回报周期由5年以上缩短至约3年。增效提高设备利用率:引入负载预测与智能调度算法,在闲时充分挖掘资源潜力,设备平均利用率提升50%。提升算力服务响应效率:通过全链路FP8量化、KVCache稀疏压缩、投机采样及其他无损优化,大幅提升推理性能,吞吐提速20倍以上。升级战略转型:将传统通信机房升级为分布式智算节点,实现从基础设施租赁向高附加值智算服务的跨越。推动智算商业模式落地:通过标准化产品与商业模式验证,形成可复制的智算样板案例,推动分布式云计算在各场景的普及应用。依托
78、算力管理调度平台,对全国算力节点进行统一接入、纳管、调度、管理运营和维护,构建铁塔智算网络,已接入北京、天津、广东、陕西、山东、湖北5个省市、8个节点智算资源。已服务数十家客户,涉及科创园区、高校科研、大型商超、智慧社区、云游戏等场景。重点厂商产品及服务能力分析青云科技公司简介:北京青云科技集团股份有限公司(简称:青云科技,股票代码:688316)自 2012 年创立以来,坚持核心代码自研,围绕“数字化、AI 算力、信创、云原生”四大场景,打造核心业务线,帮助企业构筑坚实的数字基石,以中国科技服务数字中国。公司于 2021 年 3 月登陆上交所科创板,被称为“混合云第一股”。顺应算力基建、人工
79、智能等趋势与需求,结合青云公有云十余年的技术积累和运营经验,青云科技打造了统一调度、统一管理、统一运营多元异构算力的 AI 智算平台,推出了灵活高效、全栈可靠、生态开放的 AI 算力云服务,联合生态伙伴共建 AI Cloud,服务企业的数智化创新,助力数字经济发展。AI应用算力服务算力调度算力底座异构硬件WEBSDK/APICLI计算场景分布式训练共享/专属计算资源存储服务文生文精调文生图精调语音和视频HPC计算调度策略团队共享推理场景模型广场推理服务版本管理模型管理扩容缩容推理加速模型部署API网关服务日志开放场景JupyterVS Code容器实例公共服务算力总览数据存储镜像仓库订单管理账
80、单管理钱包管理统一算力调度裸金属算力算力纳管算力池算力虚拟化/算力切分边缘计算Kubernetes容器引擎计算服务(CPU/GPU/DPU)存储服务(文件/对象/Local)网络服务(IB/RoCE)Agent智能体AI PaaS自动驾驶具身智能高校科研生物医药智能制造政务金融医疗交通问答Copilot代码CopilotOCR算力概览网络监控算力监控故障/错误码节点管理监控告警资源管理算力运维用户管理产品管理用户权限计费账单客户折扣规格定义统计报表算力运营AI智算平台AI算力云弹性扩容,根据业务情况,可以不间断弹性增加云上的 AI 算力资源内置主流环境、模型,一键部署环境,轻松快速接入业务无建
81、设运维成本,按需租用,专业品质,低廉价格弹性好用性价比打造算力中心建设的新模式,建立从建设到运营的闭环,像管理本地资源一样管理AI基础设施。完备的云上AI基础资源与应用支持,用户即来即用,释放强大算力。青云打破传统数据中心建设与运营的诸多瓶颈,实现算力资源的高效利用与可持续发展,为区域智算中心、行业智算中心等不同规模智算中心建设提供全方位支持。青云为企业提供了一个全面、高效、灵活的模型训练与推理环境,支持从数据预处理到模型部署的全流程,满足不同规模和需求的 AI 训练与推理任务。青云通过通算+智算+超算实现一体化管理,小规模部署到逐步扩张,以混合云完成资源不足时调用公有云,上下课资源自动分配和
82、删除,并通过 GPU 的切分与共享的提高资源利用率,满足高校多维需求。青云通过金融 GPU 池化解决方案、金融AI 算力调度解决方案、金融智算行业云等丰富的场景解决方案,成为金融数智化转型的坚实基石。青云针对具身智能研发运维成本高、迭代慢和业务部署复杂等痛点,从资源调度、自动化提升、边缘智能等多方面,减轻产研运维压力、加快模型迭代、支持业务实际部署。智算中心大模型/多模态高校金融具身智能场景化解决方案多元算力统一调度:对多元算力进行统一调度管理,算力池化和切分,包括多样显卡、高速计算网路InfiniBand 以及 RoCE、本地 NVME 与并行文件存储支持,实现算力资源按应用、按需求随时匹配
83、,自动切换。国产芯片异构支持:统一管理多种异构服务器、存储、安全等设备,提供多厂商的 GPU 统一管理分发,为上层不同的应用提供蓬勃算力。智能算力调度管理:具备分布式调度与管理能力,划分不同资源组,自动分配和管理算力资源,与调度系统结合,能大幅缩短任务执行时间,让客户专注于应用开发和业务创新。智简运维,精细运营:通过统一运营和运维管理平台,规范化、可视化高效运维资源,帮助管理员实现精细化资源分配,实现多种计算场景服务的标准化运营。结合多维资源监控,提高算力利用效率。智能生态支撑应用:提供开放的应用框架和模型服务,提供丰富的AI计算环境,集成行业内多家厂商生态应用,打造丰富的 SaaS 应用服务
84、,助力用户实现全场景 AI 业务落地。具备AI模型训练、模型推理、模型管理等服务,为用户提供一站式算力服务平台,平台为用户提供灵活、高性能的算力服务,同时具备并行存储、容器推理、高性能网络等能力,满足用户在多场景下的计算需求携手国家济南超算中心建成全省算网一体,承载 300+政务信息系统项目背景:随着 AI 技术及应用的发展,国家超算济南中心需要为更多行业及场景提供算力及技术支持。面对多样化的算力需求和软硬件协同的挑战,国家超算济南中心与青云科技合作,通过青云 AI 智算平台实现了算力的高效调度与运营,打造了创新的超算云服务模式。这一模式不仅提高了资源利用率和运行效率,还为用户提供了更灵活、高
85、效的计算服务。合作进一步将超算中心的价值从提供算力资源扩展到解决行业数字化创新的实际问题,实现了从运营到服务的全面优化。不同行业和应用场景根据自身特点和业务需求对算力有不同要求,从而形成通用算力、智能算力、专用计算、超算算力等多元化算力需求格局。在业务运营中,软件和硬件需要紧密合作以满足业务需求,这包括解决兼容性、性能匹配、资源调度、能耗优化和软硬件维护升级等挑战。多元化的算力需求增加了超算中心在资源分配和管理上的复杂性;软硬件之间兼容性和协同不足,增加了管理难度和成本,限制其应用范围。算力需求多元化软硬件协同管理与运维提效作业管理与调度集群资源管理AI&EHPC控制台作业、资源可视化用户计费
86、管理工业仿真科学计算航空航天医药研发能源化工应用商店大气海洋建筑土木地理勘测高性能主机14000台HDR高速IB网络VPC专有网络文件存储NFS专用 Lustre 高性能存储3000+PFLOPS算力高性能网络300PB+高性能存储生态环境智慧工业科学研究高校教育药物开发需求痛点项目亮点实践效果基于青云 AI 智算平台实现多元异构算力统一调度与管理,同时通过开放架构向上支撑其在金融、科研、教育、工业、民生等多个领域的应用拓展 多元异构算力的统一调度与管理:以一个平台提供多种算力服务,一站式统一管理。借助先进计算调度系统(EHPC)、智能计算子系统(GPU 计算)、存储子系统、服务子系统,提供完
87、整的业务和科研支撑服务。通过云应用中心、超算应用中心、AI 应用中心,加速科研类应用在平台上的开发、计算、交付和管理。成本与效率完美平衡:青云科技核心代码自研,中立开放,与包括 CPU、GPU、NPU 等不同架构的硬件广泛兼容,让济南超算调度管理效率获得更大优化。降低技术应用门槛:方案屏蔽了底层硬件复杂度的同时,内置了大量的主流 AI 开发环境和分布式计算框架,能够让济南超算的用户开箱即用,既加速业务启动,也减少人员学习成本。提升算力管理效率济南超算以极少人力高效统一管理与调度超过 3000P 算力资源,实现了云计算、高性能计算、人工智能计算集群之间的算力资源的弹性扩展;承载了约 30 个省直
88、单位近 300 个政务信息系统上云,提供了超120 项云服务。减少运营运维压力通过流程自动化、服务自动化、提升故障自愈力等手段减少运维压力。形成产业聚集效益配合济南超算的产业园建设运营,通过便捷的算力服务及应用支撑,聚集了高校、工业仿真、科研等众多企业,共同推动山东全省的区域创新能力。重点AI芯片厂商产品及服务能力分析中昊芯英公司简介:中昊芯英自2018年成立以来,便致力于打造 AI 大模型计算所需的、国产自主可控的、能够匹配海外先进水平的 AI 算力基石。作为国内唯一掌握 TPU 架构AI芯片核心技术并实现芯片量产的公司,中昊芯英以自研的、专为 AI/ML 而生的、面向 AI 计算场景时算力
89、性能超越国际知名 GPU 芯片产品近 1.5 倍的高性能 TPU 架构 AI 芯片刹那为基石,打造支持 1024 片芯片片间高速互联的大规模 AI 计算集群泰则,集群的系统性性能超越传统 GPU 架构数十倍,能耗较传统 GPU 可节省 30%,可支撑超千亿参数 AIGC 大模型计算与推理,同时自研AIGC预训练大模型并携手行业合作伙伴进行金融、教育、医疗等垂直领域专业大模型的探索落地。通过自研 AI 芯片+超算集群+AIGC 预训练大模型的三位一体化方案,为全球客户提供具备生产变革能力的AI创新技术方案,加速AI工程落地与产业化进程。中国首枚高性能TPU 架构 AI 芯片刹那泰则人工智能服务器
90、全自研TPU AI芯片+AI服务器+超算集群全自研自主可控历时四年多100%自研,完全自主可控的IP核、全自研指令集与计算平台,目前已量产交付国内一流水平的高性能高效负载均衡与高性能计算行业领先的低能耗易用,可靠,高兼容强大的算力支持顶尖的集群扩展性灵活的算力调度多场景大模型适配快速高效的部署安全可靠的防护措施汇聚全球AI芯片及AI算法顶尖人才泰则大规模 AI 计算集群系统创始人及CEO杨龚轶凡54项发明专利3项实用新型专利116项软件著作权40+国家/省/市级资质认证与荣誉注:以上专利及资质数量统计截止至2024年10月并在持续高速增长中核心团队由来自谷歌、微软、甲骨文、三星、英伟达、亚马逊
91、、Facebook 等顶尖科技公司的AI软硬件设计专家组成,全栈式的技术梯队覆盖芯片设计、电路设计、软件栈研发、系统架构、大模型算法等各类技术领域,公司研发人员占比 85%以上比 GPU 更适合大模型训练可重构的多级存储,存算一体设计,以强大的并行处理能力实现大模型计算速度和精度的双重提升同等制程下性能3-4倍跃升TPU为 AI/ML 而生的架构+Chiplet技术+2.5D 封装,实现跨制程代际级别的算力跃升高能效比能耗仅为传统GPU的70%,单位算力成本仅为海外领先GPU芯片50%,国内顶尖的计算性能用于AI大模型计算场景时,算力性能可匹配国际第一梯队芯片产品水平1024片芯片高速片间互联
92、系统集群性能远超传统GPU数十倍,集群扩容时性能可线性增长,以构建千卡万卡规模超算集群54项中国发明专利17项欧美发明专利3篇顶级国际论文密歇根大学电子信息与计算机学士斯坦福大学计算机硕士师从Subhasish Mitra 院士曾在 Google 作为芯片研发核心团队深度参与 Google TPU 2/3/4 的设计与研发在甲骨文公司参与主导了 12 款包括 SPARCT8/M8 在内的顶级高性能CPU的设计与产出10+年高端芯片领域从业经验,产业生涯中已成功流片十余次,掌握从 28nm 到 7nm 各代制程工艺下大芯片设计与优化完整方法论,带领不同公司团队完成多次从芯片架构设计、流片生产到客
93、户交付的全流程以自研算力产品搭建坚实AI计算底座,共建深圳联通高性能 AI 智算中心等多个项目项目背景:2024年9月,中昊芯英与深圳联通联合举办智算基建,加速未来高性能 AI 智算中心项目启动仪式,双方合作共建的广东地区首个全采用国产 TPU 芯片的智算中心即将投入运营。项目一期由32个算力节点通过高效互联构建而成,整体算力不低于50P,后期将扩容至千卡规模,形成训推一体化的枢纽,成为中国联通在深圳的核心智算高地的重要组成部分。中昊芯英此次提供搭载自主研发的高性能 TPU AI 芯片刹那的人工智能服务器及大规模 AI 计算集群系统泰则,为项目搭建坚实的 AI 计算底座。深圳联通凭借其强大的网
94、络资源和丰富的运营经验,将配合政府及行业伙伴,建设针对特定行业的智算节点,预部署相应软件和模型,为社会提供智能算力服务或MaaS服务,赋能产业发展。创新技术分布推理统一管控绿色低碳弹性调度集中训练与浙江大学、太极股份合作推动产学研深度融合成功打破高校对进口高端算力设备的依赖,实现算力资源的自主可控。在完成同等AI运算量时的算力成本节约超50%,有效减轻了高校的财务负担。助力太极股份成功入选中国互联网协会2024年度互联网助力经济社会数字化转型特色案例。青海海东“丝绸云谷”低碳算力产业园项目以打造西北数据云谷为目标,在“丝绸云谷”产业园中设立“唐古拉”AI算力实验室。项目总投资约230亿元,分两
95、期建设,总体规划用地面积约 100 公顷,将建设 400MW 液冷加余热回收型集装箱数据机房,建成后容纳约20万台高性能AI服务器运行。中昊芯英全自研TPU AI芯片+AI服务器+超算集群,打造AI计算底座支撑智算中心建设推动产学研深度融合中昊芯英提供的搭载中国首枚高性能 TPU AI芯片“刹那”的人工智能服务器以及大规模AI 计算集群系统“泰则”,为项目提供算力底座。该园区将有望成为国内最大规模零碳数据中心余热回收利用一体化项目,也是国内首个完全定位于“大算力+大模型”形态的大型人工智能计算中心。浙江大学与太极股份、中昊芯英开展三方合作,引入了基于中昊芯英全自研的 TPU 架构高性能AI 芯
96、片刹那构建的人工智能服务器泰则。该服务器成功应用于浙江大学多个科研项目中,如深度学习模型的训练与优化、图像处理技术的研发与应用等。同时为机器学习、数据科学等课程的教学实验提供了有力支持,使科研周期得以缩短,创新成果加速涌现。中昊芯英深圳联通广大患者中山大学中山眼科中心首创国产眼科大模型,以“三级诊疗”模式推进均质普惠医疗案例简介:我国眼科医疗资源的供需矛盾极为突出。中山大学中山眼科中心创新性地研发了第一个国产眼科大模型ChatZOC,从眼病的筛查、诊断、治疗、随访、预测全流程进行了探索和研发,并成功验证了其可行性和可靠性。ChatZOC眼科大模型的构建,以高质量眼病诊疗知识库为基础,链接中山眼
97、科中心大数据平台,结合最新眼科指南和文献,并依托华为基础AI计算框架,以基础模型的部分参数高效微调、分段检索增强生成等多种先进技术,进行数据多维度,训练多阶段的标准化模型学习。华为提供的算力支持,协助ChatZOC更高效地处理海量数据,更精确地完成复杂的计算任务,增助ChatZOC知识问答科学性的大幅提升,在眼科领域任务达国际先进水平。联合全国多家单位,构建眼病智能防筛诊治三级诊疗体系,逐步实现涵盖眼科筛查、诊断、治疗、随访和预测全流程眼科智能诊疗决策系统解决眼科面临的问题患病率高,普筛率低医疗资源不足医疗资源分布不均医疗资源70%分布于沿海大城市,眼病患者70%处于内陆西部地区、广大农村及偏
98、远地带,眼科诊疗服务的可及性更是微乎其微,患者往往难以获得及时有效的治疗全国范围内超过9亿人遭受眼病困扰 VS 5.4万眼科医生总数老年性眼疾如白内障、青光眼等的发病率正逐年攀升青少年近视问题日益严峻眼科定期体检比例不足10%;70%患者就诊时已较严重眼科大模型解决方案云原生平台弹性计算资源池弹性存储资源池弹性网络统一云管理平台统一呼叫运维平台互联网医疗平台数字化手术室互联网+服务系统互联网科普平台云原应用业务中台中台数据中台技术中台AI中台微服务PaaS平台中间件AI/大数据边缘/IoT中山大学中山眼科中心人工智能平台架构图华为算力底座基层医院巡诊车ChatZOC临床真实对话数据微调并作为知
99、识库引导答案生成中山眼科中心优质数据支持华为算力支持实践效果ChatZOC眼科大语言模型创新性可行性 基于移动智能终端的智能数字眼科医生 基于百万语音数据的数字智能客服助手 婴幼儿眼病智能筛查系统10万+电话咨询服务5倍患者服务效率20%医学生问诊能力50%医疗文书书写时间150万次/年门诊7万住院患者服务 提升眼科知识的准确性 眼病辅助诊断&生成报告覆盖智能新型三级诊疗模式,实现“设备+专家+人工智能”的融合,推进优质眼科医疗资源扩容、下沉和外溢,让患者享有触手可及的智慧医疗服务 终端普筛:走过12万+公里,16省60城市,未来2-3年拟覆盖千万人次统一规划,统一运维,数据免迁移,支持医疗A
100、I大模型高效利用云鼎科技基于工业大模型平台推动化工生产工艺智能优化案例简介:云鼎科技股份有限公司联合华为技术有限公司,在前期矿山+人工智能成功实践沉淀的云边协同、边用边学的统一架构及统一数据规范的基础上向化工行业横向扩展。聚合国家流程制造智能调控技术创新中心、青岛科技大学、南京凯奥思、中国石油和化学工业联合会等20余家“政产学研用投”生态伙伴进行技术的联合创新攻关及持续运营。通过与山东能源集团、万华化学等头部企业化工及工艺专家的联合研讨、工厂需求调研等方式梳理化工工艺优化+AI应用场景,其中,甲醇精馏装置工艺智能优化、低温甲醇洗装置溶液循环运行优化等场景已完成模型训练及应用开发。2%平均每吨甲
101、醇蒸汽消耗量降低192万元蒸汽成本降低10+亿元全行业蒸汽成本降低化工从大模型向高质量转型诉求强烈AI赋能化工价值空间巨大(以2023年全国甲醇产量8300万吨估算)AI全流程深入融合化工价值场景甲醇精馏装置工艺智能优化场景精馏塔温度环境温度塔釜温差压力进料流量60+参数预测大模型大小模型与工业机理结合构建多变量工艺优化模型多元源数据融合分析工艺流程参数精准预测最佳回流比化工产品生产需要多个装置和复杂的工艺流程目前缺乏整体环节优化,普遍存在生产物料成本高、产品收率低等问题化工生产过程中的节能减排也面临严峻挑战基础大模型利用大模型预测能力精准预测甲醇精馏、低温甲醇洗、焦化配煤等流程的最优工艺参数
102、,稳定产品质量,降低生产成本AI4S预测大模型多模态大模型NLP大模型视觉大模型算力平台底座决策大模型研发大模型设计大模型过程控制大模型安全大模型设备维护模型能源管理大模型工业大模型平台领域模型特殊作业安全检测管线滴漏监测焦化配煤优化设备故障监测特种车辆及车牌识别燃烧炉火焰状态监测水煤浆浓度、粘度预测40+化工场景气化炉温度异常低温甲醇洗溶液循环优化储罐泄漏检测甲醇精馏装置工艺智能优化与华为合作建成矿山领域首个人工智能大模型开发和应用平台,应用场景从矿山向化工、装备制造、新材料等行业扩展70+推广单位13家化工学科头部高校,联合攻关目 录Part 01时代动力,AI新世代繁荣的发动机Part
103、02层见叠出,复杂工程需要多样手段解决Part 04实践落地,AI算力应用的新标杆Part 05来日方长,AI新世代下的不断探索Part 03各取所需,市场激发AI算力的选择思考AI应用持续放量推动AI算力需求快增长AI应用下载量和内购收入都呈现快速增长态势。2024年1月至8月份,全球下载量同比增长26%,达到22亿次,预估全年下载量将达到33亿,同比增长26%。在收入端,全球 AI 应用同比激增51%,规模至20亿美元。随着AIGC技术发展,IDC预测2024年全球将涌现出5亿个智能化应用,相当于过去40年间应用数总和。22271120232024202213202320242024年9-
104、12月预估值2024年9-12月预估值19%43%55%61%71%16%28%38%47%54%0%10%20%30%40%50%60%70%80%20242025E2026E2027E2028EAI PC出货量的市场占比AI手机出货量的市场占比图1:2023-2034年全球AI应用下载量及AI应用内购收入趋势(单位:亿;亿美元)图2:2024-2028年全球AI PC及AI手机的出货量占比增长情况(单位:%)AI软件及服务+AI智能硬件快速发展激发AI算力需求当下的AIGC算力关注热点在训练端,但商业突破及应用需要推理侧支持整体市场的算力核心判断指标取决于市场发展阶段对应的训练及推理需求,
105、当下是AIGC产业技术与商业结合的重要拐点,一方面,国内外均有商业落地的场景及对应模型出现,技术路线实现大方向确认;另一方面,具体场景的商业模式及盈利模式仍待寻找,需要大量算力支持各行各业企业持续探索。算力的核心指标变化:重训练关注模型参数量,重推理关注应用的用户数据吞吐量。技术路线确认商业模式突破多点成熟应用下游应用全面爆发,多个场景出现成熟应用参数量/模型数量/训练数据量模型数量/训练数据量用户日活量(主要为推理阶段数据每日的吞吐量)算力随市场商业落地而改变在重点的典型市场实现爆发,具有场景原生能力、行业模型、通用模型强的企业进入大量投入资源,行业巨头(资源丰富)企业投入抢占先机,中小企业
106、进行跟随性探索总体技术路线已确认:国内外大量通用模型出现,并且有部分标杆性案例,可在部分场景下寻找稳定商业模式细分赛道的技术路线待定:当下的模型能力如何赋能细分赛道依然值得探索云服务算力层模型层中间层应用层芯片智算中心智算服务平台服务器标题只做纯软业务,现金流压力小模型调优与算力运维一体化,做到开箱即用且好用结合企业数据提供优化的大模型应用能力需要参与到算力中心硬件层面建设,现金流压力大通常不涉及模型和应用层面服务通常不涉及模型和应用层面服务新型算力服务传统算力运维智算中心模型供给侧需求侧应用自如仅需先行支付“保底租金”,现金流压力小自如统一装修,实现标准化、保证质量提供房屋清洁、家具维修等各
107、类増值服务需要自行先整租房源再分包,现金流压力重业主出钱装修,装修质显参差不齐通常无法提供增值服务自如传统二房东房源装修供给侧需求侧增值服务当前从算力平台建设到模型应用部署面临诸多挑战,新型算力服务呼之欲出。新兴的智能算力平台 需要从规划、建设、集成、模型训练到推理的落地,整个过程是一个复杂的系统 工程,需要包括:1)大规模集群、软硬一体强耦合的复杂交付,大幅提升了算力平台的设计与实施难度,以及成本、高能耗等挑战;2)模型训练底层机制,理论上决定了训练中断是不可避免,如何稳定训练的时长,故障快速恢复也是重 点考虑的问题;3)新兴技术领域,各类软硬件技术都在快速迭代,客户模型训 练和应用开发过程
108、中,对底层软硬件的适配调优及专业人才获取上也面临巨大的挑战。“自如式”算力服务能够高效整合算力资源并灵活满足客户在不同层次的需求,解决AI应用落地的“最后一公里”难题。如果把智算中心比作房源,传统的算力运维就像传统 二房东一样通过重资产的模式参与智算中心建设,而对后续应用开发的模型调优、应用开发等环节渗透不足,而新型算力服务将业务重点着手于模型调优与算力运 维一体化的纯软业务,同时具备在应用侧赋能企业定制开发的高业务扩展性。汽车电动化、智能化发展带动智能驾驶芯片需求快速增长,大模型催化AI功能部署随着智能驾驶水平的提高,对算力的要求不断增长;如L5级别的自动驾驶最低算力要求为500TOPS。芯
109、片厂商生产高算力车规芯片,可用于自动驾驶与AI应用,车企推出装配高算力芯片的智能汽车。7205085081016020040060080010001200特斯拉(搭载HW4.0)理想L9小鹏G9蔚来ET7部分新能源车型算力10201001000L-L2L3L4L5高等级自动驾驶对芯片算力的要求变化算力要求(TOPS)1429691362538631202021202220232024智能座舱SoC芯片算力变化NPU算力(TOPS)CPU算力(kDIMPS)汽车电动化、智能化发展带动智能驾驶芯片需求快速增长各车企、智驾供应商智算中心算力布局情况企业类型企业名称算力布局车企特斯拉100EFLOPS
110、(2024年10月)理想4.5EFLOPS小鹂2.5EFLOPS长城1.64EFLOPS长安1.42EFLOPS蔚来1.4EFLOPS吉利0.81EFLOPS车厂与科技公司发力车端AI大模型,随着新能源汽车对智能化的要求不断提高,将AI大模型接入整车已经成为行业趋势;车厂与科技公司均发力自研AI大模型,以期提高智能化水平。部分厂商车端大模型布局蔚来NomiGPT:端云融合架构,多模态感知,支持第三方API调用,搭载情感引擎和长期记忆能力小鹏AI天玑大模型:集成感知大模型、规控大模型、生活助理、出行助理理想Mind GPT:训练数据总量超过3万亿tokens,多模态认知模型,采用taskform
111、er架构广汽广汽AI大模型平台:AI大模型平台成为全场景应用的入口,重塑智能汽车场景交互范式华为千悟引擎大模型:以华为云盘古大模型、MindSpore异思计算框架和昇腾AI基础硬件平台等技术为基础底座百度智舱大模型 2.0:采用全新MoE架构,可支持本地化部署!支持车企高效定制品牌特色商汤日日新SenseNova50:基于超过10TBtokens训练、覆盖数千亿量级的逻辑型合成思维链数据科大讯飞星火大模型:基于“讯飞星火+汽车”模式,创造性地将犬模型与汽车产业深摩整合智算中心建设关注要点统一智能运维平台,提高运维效益和质量指定标准化运维流程及组织,提供体系化服务保障010203040506多元
112、异构算力运营平台提升效益一站式开发平台安全合规保障体系智能化运维绿色低碳多元异构架构融合,满足不同精度要求,推进算力多元化供应商用国产芯片并行推进,精准匹配智算业务需求多视角运营工具全面支撑精细化运营多态服务灵活满足用户需求智算中心运营增效,达成预期ROI融合AI开发的多个环节,推动人工智能规模化落地实现大模型到具体业务场景之间的打通,促进其行业化应用智算中心等级保护机制,构建网络安全纵深防御体系智算数据安全,保证数据全生命周期安全AI服务合规,完善内容安全管理体系降低PUE以达到国家及当地政策要求降低数据中心耗电量,降低运行成本现有机房改造方案,灵活应对改造需求AI算力行业碳中和的背景与驱动
113、因素全球碳中和趋势下,中国明确提出“碳达峰、碳中和”(“双碳”目标)的战略目标,以应对气候变化和推动可持续发展。在此背景下,国家通过算力基础设施高质量发展行动计划和“东数西算”等政策,推动算力基础设施绿色化,优化能源结构和布局。算力行业作为支撑AI、大数据等数字经济发展的核心基础设施,因其高能耗特性在碳中和进程中具有独特作用,不仅直接影响自身能源消耗和碳排放,还能通过技术创新赋能其他行业实现减排目标,成为实现“双碳”目标的重要抓手。转型过渡蓄势期能源结构切换期近零排放发力期全面中和决胜期202120252030203520402045205520502060十四五基础摸底十五五严格控排十八五颠
114、覆性技术十六五十七五灵活能源系统电力碳中和二十五二十一五十九五经济发展碳脱钩碳排净零负排放图:中国碳中和时间线数据来源:中国国家发展和改革委员会(NDRC)、国际能源署(IEA)等,甲子光年智库整理0500010000150002023年 2024年 2025年 2026年 2027年 2028年 2029年 2030年图:中国智能算力用电量增长预测(用电量:亿度)技术保守情景技术乐观情景政策驱动行业客户需求经济与技术驱动三大驱动因素 国内政策:算力基础设施高质量发展行动计划 国际政策:欧盟绿色协议、EuroHPC计划 可再生能源成本下降带来的经济性:光伏和风电的发电成本在全球范围内持续下降,
115、部分地区已低于煤电和天然气发电成本。提升竞争力的绿色技术应用:液冷技术(冷板式液冷和浸没式液冷)、储能系统(锂电池和热能储存)企业绿色供应链管理 客户对绿色算力中心的高要求:PUE、可再生能源比例、绿色SLAs需求123算力中心绿色化现状与技术实践分析随着AI算力中心等数据中心规模的不断扩大,绿色节能数据中心已从概念走向实践,越来越多的数据中心在建设时将PUE值(平均电能使用效率Power Usage Effectiveness)等指标作为关键指标,建立追求更低的PUE值的目标。指标名称定义与计算公式意义技术优化方向PUE电能使用效率。数据中心总能耗/IT/IT设备能耗数值越接近1 1,表示能
116、效越高,冷却和辅助设施的能耗更低提高冷却效率:采用液冷或间接蒸发冷却技术优化电力分配:使用高效UPS和电力模块智能化管理:AI优化能耗调度CUE碳使用效率。数据中心总碳排放量/IT设备能耗反映算力中心的碳排放水平,数值越低越环保引入可再生能源:使用太阳能、风能等提高能源使用效率:优化IT设备的能效WUE水使用效率。数据中心总用水量/IT设备能耗评估冷却系统对水资源的依赖程度,数值越低表示水资源使用更高效提高冷却效率:采用液冷技术减少水耗优化水资源管理:循环利用水资源RUE可再生能源利用率。可再生能源消耗量/数据中心总能耗数值越高,表示可再生能源使用比例越高,能源结构越绿色引入可再生资源:建设太
117、阳能、风能发电设施优化能源结构:提高可再生能源使用比例ERE能源再利用效率。(总能耗-再利用的能源量)/IT设备能耗数值越低,说明废热再利用水平越高,整体能效越高废热回收利用:利用废热进行供暖或发电提高能源转换效率:优化能源转换技术GEC绿色能源系数。使用的绿色能源量/数据中心总能耗反映绿色能源的使用比例,强调能源供应的绿色化程度引入可再生能源:使用绿色能源供电优化能源采购:购买绿色能源证书ITUEIT设备使用效率。实际使用的IT负载/IT设备总容量评估资源利用效率,数值越高表示设备使用更充分,资源浪费更少提高设备利用率:优化资源调度算法虚拟化技术:提高服务器利用率Energy-to-Solu
118、tion能耗-解决方案效率。总能耗/任务完成时间专注于任务完成效率,适用于高性能计算(HPC)和AI算力中心评估提高计算效率:优化算法和硬件配置减少任务完成时间:提升硬件性能TUE总体使用效率。IT设备能耗/数据中心总能耗数值越高,表示IT设备能耗占比越高,冷却和辅助设施能耗占比越低优化电力分配:提高电力使用效率减少非IT设备能耗:优化建筑和辅助系统PUE 是最基础和常用的指标,广泛用于衡量能效水平。我国的平均PUE值基本在1.82.0之间,中小型数据中心的PUE值甚至更高,大多在2.5以上,优化空间极大CUE、WUE、RUE、ERE 等绿色化指标为算力中心提供了环境友好性和可持续发展的参考I
119、TUE 和 Energy-to-Solution 更关注设备利用率和计算任务的效率TUE 用于综合评价整体能源利用效率,与PUE互为补充基础设施节能可再生能源使用绿电交易绿证交易和碳交易智能化运维IT设备节能算力-电力协同算力中心碳中和的核心路径和未来趋势智能化运维是关键(1/2)核心技术:能效调优(AI动态优化),通过实时监控和分析算力中心的运行数据,利用人工智能算法对资源、能源的使用进行动态调整,以达到节能和提升效率的目的。绿色化集约化高密化智能化人力密集型技术密集型实时监控与数据采集人工智能算法动态资源分配冷却系统优化与预测性维护CPU/GPU利用率内存和存储使用率机器学习预测强化学习优
120、化AI弹性分配电力消耗(PUE指标)温湿度、冷却系统状态智能优化算法(遗传算法、模拟退火算法)负载优化关闭空闲设备资源利用最大化动态调控自然冷却利用AI故障预测预防性维护数据采集与建模:部署传感器和监控系统,采集硬件使用率、温湿度、电耗等数据、基于历史数据和实时数据,建立能耗与负载的数学模型。AI模型训练:使用机器学习算法训练AI模型,识别能耗与计算任务之间的关系;输入变量包括任务负载、电力消耗、冷却参数等;输出目标为最优的资源分配和冷却策略。动态优化与部署:实现AI模型与算力中心管理系统的集成;动态调整服务器任务分配、供电和冷却参数。持续优化与迭代:持续监控优化结果,收集新数据,不断迭代AI
121、模型以适应新需求。算力中心碳中和的核心路径和未来趋势智能化运维是关键(2/2)核心技术:数据分析与提前预警,数据分析与提前预警是通过实时采集和分析算力中心运行数据(如设备状态、环境数据、历史记录等),利用人工智能和大数据技术,预测潜在的风险或故障,并发出预警信号,防止问题恶化或影响系统运行。实时监控与数据采集:通过传感器和物联网(IoT)技术,采集环境温度、湿度、电流、电压、设备运行状态等数据;实现对算力中心全方位的实时监控,确保数据完整和实时性。大数据分析:分析历史数据和实时数据趋势,识别异常模式;基于设备的运行规律,构建正常运行的模型,快速识别偏离标准状态的行为。人工智能算法:利用分类算法
122、和时间序列分析算法预测设备状态变化;通过聚类算法或深度学习发现隐藏的风险信号,检测出潜在问题。预警机制:综合分析设备数据和环境数据,判断风险等级(低、中、高);通过短信、邮件、系统通知等方式向管理员发出预警信号,提前干预。实施过程数据采集部署传感器,采集包括设备状态、环境参数等实时数据。数据分析利用大数据平台和AI模型分析数据,识别异常和潜在风险。风险预测预测设备老化、故障趋势或系统瓶颈。预警触发根据风险等级,启动相应的预警机制。实际应用设备过载预警检测关键服务器或设备的过载风险,避免宕机。环境异常预警实时监控温湿度或供电系统异常,防止因环境问题导致设备故障。能耗异常预警发现能耗突然增加的设备,定位问题源头,及时处理。优点提前防控风险通过预测减少意外停机和重大故障发生概率。节约成本提前发现问题,避免因故障导致的高额维修和停机损失。高效运维智能化的预警机制减少人工干预,提升运维效率。智库院长宋涛微信stgg_6406分析师刘瑶18401669467北京甲子光年科技服务有限公司是一家科技智库,包含智库、媒体、社群、企业服务版块,立足于中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,致力于推动人工智能、大数据、物联网、云计算、AR/VR交互技术、信息安全、金融科技、大健康等科技创新在产业之中的应用与落地扫码联系商务合作关注甲子光年公众号