《中国信通院:算力时代全光运力应用研究报告(2024年)(36页).pdf》由会员分享,可在线阅读,更多相关《中国信通院:算力时代全光运力应用研究报告(2024年)(36页).pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、中国信息通信研究院中国信息通信研究院技术与标准技术与标准研究所研究所 2024年9月 算力时代全光运力应用算力时代全光运力应用 研究报告研究报告 (2022024 4 年年)版权声明版权声明本报告版权属于中国信息通信研究院,并受法律保护。本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应转载、摘编或利用其它方式使用本报告文字或者观点的,应注明注明“来源:中国信息通信研究院来源:中国信息通信研究院”。违反上述声明者,本院。违反上述声明者,本院将追究其相关法律责任。将追究其相关法律责任。前前 言言 随着我国产业数字化转型的持续深入,企业及家庭用户数
2、字化应用对算力资源的需求快速增长,全光运力作为连接用户及算力资源的承载底座,重要性进一步凸显。全光运力需要支撑算力资源互联及调度,满足各类新应用催生的高速互联、灵活敏捷、确定低时延、算网高效协同等应用需求。如何发掘典型行业应用,探索创新融合应用方案,有效发挥全光运力大带宽、高可靠、硬隔离、低时延等优势,更好推动企业数智化转型、家庭数智体验升级,强化高品质网络运力对经济社会数字化转型的支撑作用等成为业界关注热点。本报告立足算网融合时代下产业数字化转型升级背景,围绕智慧交通、工业仿真、数字文旅、智慧家庭等典型行业入云场景,以及分布式大模型训练场景等,深入剖析用户服务体验以及数据传输等对网络的需求,
3、提出满足企业及用户品质联算需求的超大带宽、确定性、高可靠安全、业务感知、算网协同等全光运力关键技术,展示全光运力在智慧交通、数字云网吧、智家云电脑、智算拉远等场景下的行业创新应用案例。希望业界聚力协同推进全光运力技术、产业及应用多维创新,支撑培育新质生产力,推动我国数字经济持续高质量发展。目目 录录 一、概述.1 二、全光运力应用需求.3(一)智慧交通.3(二)工业仿真.6(三)数字文旅.8(四)智慧家庭娱乐.15(五)分布式模型训练.18 三、全光运力关键技术.21(一)超大带宽.21(二)确定性承载.22(三)高可靠安全.22(四)业务感知调度.23(五)算网协同控制.25 四、行业应用案
4、例.25(一)智慧交通案例.25(二)数字云网吧案例.26(三)智家云电脑案例.28(四)智算拉远案例.29 五、总结与展望.30 图图 目目 录录 图 1 交叉路口通信架构图.5 图 2 仿真上云设计过程.6 图 3 网吧、电竞酒店算力上云场景.9 图 4 实景三维云建模场景.12 图 5 影视云制作场景.14 图 6 智慧家庭云游戏场景.16 图 7 算力分布式部署场景示例.19 图 8 全光运力解决方案架构图.21 图 9 超大带宽连接.22 图 10 业务感知流程示意.24 图 11 智慧交通案例.26 图 12 数字云网吧案例.27 图 13 智家云电脑案例.28 图 14 智算拉远
5、案例.29 表表 目目 录录 表 1 摄像头带宽需求.3 表 2 不同带宽下的理论传输时间.7 表 3 不同分辨率、刷新率对应的带宽需求.10 算力时代全光运力应用研究报告(2024 年)1 一、概述 各类算力行业应用涌现对网络带来新需求和挑战。一方面,消费互联网新业态新模式竞相发展,推动数据计算需求持续增长,数字医疗、数字办公、数字娱乐、智能出行等用户规模呈普遍增长态势,智能手机、虚拟现实(VR)/增强现实(AR)头显、智能网联汽车、智慧家庭网关、工业园区网关等智能终端向多元化分布式发展,驱动数据处理从集中式计算向分布式云计算发展,并逐步从云端向边侧和端侧扩散,催生数据泛在处理及云边端算力的
6、协同调度需求。随着人工智能(AI)大模型技术的成熟,生成式 AI 应用呈爆发式增长,AI 模型训练及推理过程对网络性能指标要求愈加严苛,要求网络满足高速互联、灵活敏捷、确定性低时延、算网高效协同等能力。另一方面,产业互联网算力需求呈指数级增长,产业互联网数据量庞大且增速迅猛,且由于产业互联网应用与工业、农业及服务业等产业领域的设计、研发、制造、经营具体环节密切相关,对数据处理的实时度及精确度要求更高,需要更为强大泛在的算力资源及高质量的网络传输配合完成数据的高效处理。全光运力建设取得积极成效。一是全光网建设快速推进,网络传输性能大幅提升。我国已经建成全球规模最大的光纤通信网络,网络规模和网络性
7、能均达到国际先进水平。光缆线路总长度持续增加,截至 2024 年 7 月底,我国光缆线路总长度已达到 6712 万公里,新型超低损光纤部署规模逐步扩大;千兆及以上接入速率的固定互联网宽带接入用户达 1.9 亿户,占总用户数的 29%。二是传输网络系统容量及算力时代全光运力应用研究报告(2024 年)2 算网调度能力不断提升,数据中心互联(DCI)能力持续增强。基础电信运营企业陆续开展骨干网速率升级和容量扩容,国干层面以及部分省市开始部署单波 400G 系统,系统容量进一步提升,灵活全光交叉、智能管控、网络切片等新技术加快发展应用。三是高速光传输各项关键技术攻关取得一系列标志性成果。正交相移键控
8、(QPSK)调制格式、C+L 波段扩展等 400G 长距骨干传输关键技术标准体系基本完善,三大基础电信运营企业均已开展 400G 超长距传输试点。细粒度光传送网(fgOTN)、光业务单元(OSU)等我国自主创新技术方案向国际标准的转化率显著提升,国际影响力及话语权持续增强。全光运力行业创新应用持续探索。目前,行业应用场景与业态日益丰富,光网络对千行百业数字化转型的赋能潜力不断激发,油气、铁路、电网等国民经济关键领域,以及金融政务、汽车制造、工业生产等重点垂直行业已涌现出一批创新应用优秀案例。随着全光运力基础设施的持续建设,如何发掘典型行业应用,探索创新融合应用方案,有效发挥全光运力大带宽、高可
9、靠、硬隔离、低时延等优势,更好推动企业数智化转型、家庭数智体验升级,强化高品质网络运力对经济社会数字化转型的牵引作用,成为现阶段的关键任务。本报告将立足算网时代下产业数字化转型升级背景,详细分析典型垂直行业的应用场景及对网络的需求,提出满足行业应用的全光运力关键技术,展示全光运力行业创新应用案例,为我国全光运力技术创新、融合应用及市场发展提供参考。算力时代全光运力应用研究报告(2024 年)3 二、全光运力应用需求(一)(一)智慧交通智慧交通 1.智慧交通应用场景 智慧交通建设需求推动摄像头智能化升级。交通运输部发布的数字交通“十四五”发展规划,提出深入推进数字交通体系,交通新基建在 2025
10、 年要取得重要进展。智慧交通可支撑交通行业的数字化、网络化、智能化水平提升,支撑交通运输行业高质量发展和交通强国建设。智慧交通建设推动摄像头智能化升级,把普通摄像机升级为智能摄像机,并把分布式存储在各个区域的视频、抓拍图片上传到数据中心,以引入 AI 系统对路口数据进行分析,实现交通态势的全局监管、信号的综合调优。摄像头智能化带来带宽升级需求。交通路口升级使用智能摄像机,现有的通信网络的以满足远程查看视频录像为主,智能摄像机多路同时上传需要进行带宽升级,相关带宽需求如表 1。单个摄像机的带宽需求从 1080P 的传统摄像机的视频带宽需求 9Mbps,提升到高清的500W 像素智能摄像机,单个摄
11、像机带宽需要达到 103Mbps。表 1 摄像头带宽需求 摄像机类型摄像机类型 视频带宽视频带宽 抓拍图片上传带宽抓拍图片上传带宽 普通摄像机普通摄像机上行带宽上行带宽(Mbps)智能摄像机智能摄像机上行带宽上行带宽(Mbps)编码码率编码码率(Mbps)缓存补录速缓存补录速率(率(Mbps)抓拍图片大抓拍图片大小(小(MB)每秒抓每秒抓拍数量拍数量 元数据速率元数据速率(Mbps)1080P 摄像机 4 1 1.5 2 24 9 68 500W 摄像机 10 2 2 2 32 22 103 4K 摄像机 14 3 4 2 64 31 191 摄像机带宽计算公式:算力时代全光运力应用研究报告(
12、2024 年)4 普通摄像机的带宽=(编码的码率A+缓存补录路速率)预留带宽系数(1.2)智能摄像机的带宽=(编码的码率A+缓存补录速率+抓拍图片大小每秒图片数8+FTP/SFTP 上传图片大小每秒图片数8)预留带宽系数(1.2)A 为超强纠错附加码率,取值 200%。来源:中国信息通信研究院 摄像头视频数据需要实时上传 AI 处理中心,对网络可靠性提出更高需求。一个大型城市交通摄像机有 45 万台,据统计城市光缆每百公里年均中断 3 次以上。摄像头数据在实时上传到 AI 处理中心的时候,光缆中断容易导致数据丢失,需要网络提供保护能力,发生断纤时保持数据传输不受影响。摄像头点位多、分布广、网络
13、变动频率高,带来统一承载及运维需求。摄像头分布在城市的各个交通路口,配套的网络也需要跟随摄像头逐个安装、调试,为避免不同安装调试方式带来的人工错误和额外工作,需要通过统一承载的方式,降低安装复杂度。路口交通繁忙,大部分摄像头是改造升级,要减少摄像头的通信和供电线缆,降低施工对交通影响的时间。此外通过统一承载网络远程监控维护,当光缆中断、设备故障发生时,网络能够快速定位到具体故障点或故障设备。2.智慧交通网络要求 智能摄像机升级后,相关视频和图片数据要实时传输到中心机房,通过 AI 集中处理视频、图片数据,需要对网络的带宽、可靠性进行升级,以满足智能摄像头集成上传和处理的需求,同时面对大量摄像头
14、的承载需求,需要统一承载方式,简化运维,以降低安装、维护要求。升级后的交叉路口的通信网络架构如图 1 所示。算力时代全光运力应用研究报告(2024 年)5 来源:中国信息通信研究院 图 1 交叉路口通信架构图 网络统一承载:针对交叉路口多种设备需要通信和控制需求,可以使用一台设备统一承载,以减少设备数量。不同摄像头的信号控制、电子警察、卡口、交通诱导、视频监控、流量监测等不同业务流,可以通过分配不同时隙的方式实现信号流间的隔离。带宽升级:按照交叉路口 16 个摄像头,每个 500W 像素摄像头103Mbps 预留带宽计算,路口到区域机房的带宽要从百 M 升级到1.7Gbps 以上。每个区域机房
15、纳管 5060 个路口,区域机房到中心机房的带宽需要提速到百 Gbps,同时面向未来带宽升级需求,应具备平滑升级到 N*100Gbps 的预留带宽扩展能力。可靠性:交叉路口摄像机的业务接入终端到街边柜的接入设备、接入设备到区域机房的汇聚设备,应提供 1+1 保护能力。区域机房到中心机房故障影响范围大,城市内光缆存在主备双断风险,需提供三路由的保护,整体达到 99.99%以上的业务可用率。安装维护便捷:终端网络设备应支持自动上线和远程配置,减少现场调试时间。设备层面引入统一管控系统,实现故障全局监控,实路口接入设备ONUONUONUONU汇聚设备多路口汇聚中心机房交通态势监管信号综合调优网管云平
16、台区域机房街边柜业务接入终端核心设备算力时代全光运力应用研究报告(2024 年)6 时监测光缆通断状态,实现快速故障分析定位。(二)(二)工业仿真工业仿真 1.工业仿真应用场景 工业仿真与云技术、人工智能融合,推动工业产业加速转型升级。党的十九大报告指出“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合”。工业仿真在工业设计、开发领域可以大幅提升设计精度和效率。工业仿真涉及结构、流体、动力学、散热、电磁等多领域,每个领域都有多种仿真工具软件,集成整合难度大、数据流转多,并且仿真时间受硬件资源限制,仿真周期较长。随着云化技术、人工智能技术的发展,工业领域的仿真
17、应用引入云化技术集成自动化仿真工具链,利用云的弹性扩展优势,提供更强算力,增强用户使用便捷性,例如 Ansys 的仿真平台可以集成 100 种以上计算机辅助工程(CAE)和计算机辅助设计(CAD)工具,用户可以随时访问使用。此外 AI 技术的引入以及更强大的算力支撑,通过预测全部性能节省仿真求解时间,大幅减少仿真时间,提升设计开发效率。云化技术和 AI 技术的进入,工业产业加速向智能制造升级。工业仿真上云设计过程如图 2 所示。来源:中国信息通信研究院 图 2 仿真上云设计过程 算力时代全光运力应用研究报告(2024 年)7 工业仿真云化场景下,企业本地与云端存在大量数据交互。工业仿真云化后,
18、企业需要把仿真数据放到云端进行计算处理,仿真数据量大,需要在短时间内完成数据传输,避免影响设计开发。以汽车行业的新车型研发为例,汽车碰撞仿真、结构件强度仿真、整车空气动力仿真,需要大量的高性能计算(HPC)算力,部分车企租用第三方云端 HPC 算力,研发中心与云端的平均每天的数据传输量在 TB 级别。智能驾驶研发过程中,需要大量数据进行训练,百台路测车的数据量是百 TB/天。数据传输时间和带宽间的关系如表 2 所示。表 2 不同带宽下的理论传输时间 数据量数据量 传输时间传输时间 100M 1G 10G 100G 10TB 12 天 29 小时 3 小时 20 分钟 100TB 121 天 1
19、2 天 29 小时 3 小时 1PB 1243 天 125 天 12 天 29 小时 来源:中国信息通信研究院 企业对专线资费敏感,需探索新型专线业务服务模式。为提高工作效率,一般需要当天晚上把数据传输到云端,第二天能正常开展工作。但大带宽专线的租赁费用高,企业只在传输仿真数据的时候需要使用大带宽,日常查询仿真结果等只需要几十 Mbps 到百 Mbps 左右的带宽。考虑费用和使用习惯因素,需要企业专线按需进行带宽调整,并能按使用时长收费,满足大带宽数据传输需求,同时降低使用费用。工业仿真云化数据安全性要求高。仿真系统云上部署后,大量的企业研发数据上云,带来了仿真的便利性,但也面临数据的安全性问
20、题,需要网络能够提供加密手段,防止传输过程中出现数据泄密。算力时代全光运力应用研究报告(2024 年)8 2.工业仿真网络要求 工业仿真数据传输需要满足用户对网络带宽、成本、数据安全性等多方面的要求。弹性可调整大带宽:企业接入侧提供 10Gbps 级别的带宽入口,日常使用提供 100Mbps 的带宽,在需要传输仿真数据时,动态调整到 10Gbps100Gbps 带宽,实现百 T 以内数据小时级传输。在汇聚层和干线层同一份带宽资源供多个企业分时复用,提升带宽利用效率,降低使用资费。独立通道加密传输:网络提供基于物理隔离的硬管道,保证传输数据与网络中其他业务数据硬隔离,并在业务入口侧增加基于国密的
21、硬件加密能力,既不影响线路传输效率,又可防止数据被窃取。(三)(三)数字文旅数字文旅 1.网吧电竞行业(1)网吧电竞酒店应用场景网吧电竞酒店应用场景 网吧上云成为趋势。文化和旅游部互联网上网服务行业上云行动工作方案要求加快推动互联网上网服务营业场所数字化转型,创新发展“存储上云”“算力上云”等上网服务行业云服务新模式,助力行业转型升级。网吧行业调研数据显示,网吧上云占比 2023 年为 6%,2024 年预期进一步提升至 15%。网吧上云后,本地主机系统的 CPU、GPU 迁移到云端集中部署,本地瘦终端仅保留鼠标、键盘、显示器等外设,瘦终端通过网络连接到云端算力,如图 3 所示。网吧的瘦终端把
22、本地的鼠标、键盘操作采样数据传输到云端,云端算力操作系统调算力时代全光运力应用研究报告(2024 年)9 度到应用软件进行交互逻辑处理、同时交给 GPU 做图形处理和渲染,渲染后形成每一帧视频画面写入缓存,画面经过编解码将视频通过网络传输给瘦终端,瘦终端经过解码后把图像在显示器上展现。来源:中国信息通信研究院 图 3 网吧、电竞酒店算力上云场景 网吧上云后要求用户体验不变,对网络传输提出更高要求。网吧、电竞酒店的玩家主要选择 3A 和竞技两大类游戏,3A 类游主要追求画面质量,竞技类游戏依靠玩家的操作技能和反应能力进行对抗或比赛,对流畅度、操作灵敏度要求高。游戏画面流畅、清晰,操作灵敏、不卡顿
23、是网吧体验的关键要求,影响体验的关键指标包括:1)显示分辨率:网吧、电竞酒店显示分辨率以 2K 为主,即2560*1440,也有部分升级到 4K。为了满足高分辨率要求,网络需具备足够稳定带宽传输视频信号。2)显示刷新率:游戏需要高刷新率让视觉体验流畅,渲染的游戏画面在显示器上实际输出的刷新率高低将直接影响到玩家的操作,过低的刷新率,还会导致画面不连贯,令人感到晕眩不适。目前网吧、电竞酒店主流刷新率以 144 帧/秒刷新率为主,部分升级到 240 帧/秒高刷新率。画面传输的带宽、时延及时延抖动将直接影响显示效果。3)操作流畅度:鼠标点击丢失、跳跃、卡顿、迟滞是影响操作体算力时代全光运力应用研究报
24、告(2024 年)10 验的关键。流畅的电竞操作体验,依赖尽可能短的时间内完成用户操作数据的传输、处理、画面生成、画面传输和显示整个端到端过程,即要算力处理快,又要传输时间短。(2)网吧上云的网络要求网吧上云的网络要求 网吧上云体验不降低,要求网吧侧到云端的连接带宽稳定、传输时延低、时延抖动小,传输丢包率低。稳定带宽:带宽越大可支持的分辨率越高。当前网吧主流应用的2560*1440 分辨率、144 帧刷新率的画面,需要的带宽为 120Mbps,如表 3 所示。单个网吧按同时上线 80 台电脑计算,一个网吧需要约10Gbps 的带宽才可保障流畅运行。表 3 不同分辨率、刷新率对应的带宽需求 分辨
25、率分辨率 刷新率刷新率(帧(帧/秒)秒)传输峰值带宽传输峰值带宽(Mbps)1080P 1920*1080 60 50 2K 2560*1440 60 80 120 100 144 120 4K 3840*2160 60 150 144 250 来源:中国信息通信研究院 稳定低时延:按每秒 144 帧/秒刷新率计算,每帧显示间隔时间要求稳定在 6.9ms,为不影响使用体验,云端处理、本地处理和网络传输时延需要在一帧内完成。云端当前主流显卡处理时间平均为3.4ms 左右,本地瘦终端处理时间平均为 2ms 左右,因此在保证 144帧显示的情况下,网络传输的往返时延(RTT)需保证在 1.5ms 以
26、内。低丢包率:传输网络丢包会造成视频画面数据异常或操作动作丢算力时代全光运力应用研究报告(2024 年)11 失,造成视频画面影响有花屏、跳帧、卡顿等,操作影响有操作跳动、点击丢失等。根据现网丢包验证结果分析,丢包率需保证小于 1E-5。2.实景三维测绘行业(1)实景三维应用场景实景三维应用场景 实景三维测绘应用日益广泛。自然资源部发布关于全面推进实景三维中国建设的通知,全国各地基础测绘十四五规划中,纷纷将实景三维建设列为重要建设任务之一。实景三维运用采集设备,如无人机、相机、扫描仪等,对现有场景进行多角度环视拍摄,以三维视觉重建技术为核心,利用数字摄影测量技术与人工智能技术将采集场景快速还原
27、为三维,真实还原世界。实景三维作为数字中国的基础底座,已广泛应用于自然资源、数字景区、数字文物、智慧城市、应急管理、公安、住建、环保、矿山等行业。全国已有 23 个省在基础测绘“十四五”规划中将实景三维作为重点建设任务,2023 年实景三维建设有 169 个地市,占比超过 50%。实景三维涉及大量数据采集及处理流程。实景三维操作流程包括实景数据采集、建模、修模、原子化四个关键步骤,如图 4 所示。其中实景数据采集根据对不同地物分辨率的要求,进行实地地形调研、方案设计,软硬件准备等,完成无人机倾斜摄影测量和像控点测量。实景采集数据需要上传云服务器存储并进行建模,完成影像数据的自动化建模及生成模型
28、加密,提供通用格式的三维模型成果。修模需要远程操作云上数据,对自动化建模生成的三维模型中的碎片、残缺、标牌破损、纹理拉伸模糊等共性问题进行修饰后处理。原子化过程需算力时代全光运力应用研究报告(2024 年)12 要远程针对云上建模和修模得到的三维模型进行语义原子化和手工原子化处理,满足模型与各行业应用中的属性数据进行挂接与关联。来源:中国信息通信研究院 图 4 实景三维云建模场景 实景三维云上数据操作流程需要高性能的算力和网络。一个航拍无人机一天采集约 300GB 数据,超大型项目更需要多个无人机同时工作,每天产生 TB 级数据需要建模和修模,因此即要大量高性能算力集群完成批量建模。设计人员使
29、用高分辨率、高刷新率云电脑完成在线修模工作,要求网络保证显示刷新率和操作流畅度。同时采集数据回传需要灵活的大带宽提出要求。实景三维采集数据需要提供物理隔离的传输通道。实景三维采集数据的全生命周期流程,都需要保障地理信息数据的安全性,一方面处理数据的算力资源和传输数据的网络通道均需要物理隔离;另一方面人员与数据隔离避免直接接触,人员建模、修模、单体化全部使用云电脑完成,工作人员只接触显示画面不接触数据源,且显示画面经过安全处理。边缘算力机房瘦终端瘦终端瘦终端CPE实景三维企业12G带宽,RTT1.5ms 用户远程操作云电脑 2k/165fps显示渲染服务器存储服务器 读取数据用于修模/建模 算力
30、读取模型数据企业存储服务器托管无人机采集数据回传算力时代全光运力应用研究报告(2024 年)13(2)实景三维的网络需求实景三维的网络需求 针对云上处理的实景三维数据,需要使用实时渲染的高性能云电脑和离线的渲染集群,因此对网络提出更高要求。实景三维需要物理隔离和大带宽、低时延网络保障。安全性要求:用于实景三维数据的传输通道需要与其他通道物理隔离,需支持国密加密传输,考虑传输带宽和数据处理量比较大,需支持硬件加密。时延要求:企业在本地连接云端电脑实时展示图像效果并进行优化处理,考虑画面的高分辨率、刷新率、流畅度,网络时延要求和云网吧一样,在2K显示器及144帧/秒刷新率下,RTT时延需要1.5m
31、s。带宽要求:按一台无人机一天 300GB 数据,同有 10 台拍摄,共3TB 数据,白天拍摄后,晚上完成参数和预处理,按传输数据 2-3 小时计算,需要 3Gbps 左右的带宽。白天工作时间进行图像优化时,只需要云端传输视频信息到企业本地,和云网吧带宽需求一样,每台云电脑需要 120Mbps,按 8-10 个人同时使用,需要 1Gbps 左右带宽。3.影视综艺制作行业(1)影视制作行业应用场景影视制作行业应用场景 影视制作行业上云成为趋势。国家发展改革委联合住房城乡建设部、文化和旅游部、国家电影局、广电总局、国家文物局等部门印发推动文化和旅游领域设备更新实施方案 部署实施电影产业高新促进行动
32、重点任务,鼓励在电影视觉效果和后期制作中运用人工智能、虚拟拍摄、虚拟预演等新技术新装备。推动电影后期制作设备体系的算力时代全光运力应用研究报告(2024 年)14 升级改造,实现高新技术化和标准化。推动建立和升级云制作平台、云数据中心,夯实行业通用制作技术和算力底座。影视制作上云如图 5 所示。影视制作包括剪辑、视效、声音、调色关键环节。其重头是视效和剪辑,并且操作需要实时看效果,因此后期制作企业需要高分辨率、高刷新率、高精度操作的云电脑产品,同时配套快速读写的文件存储池、归档存储池和并行渲染的高性能算力池。来源:中国信息通信研究院 图 5 影视云制作场景 影视制作上云提出高精度还原、按需使用
33、、安全便捷等需求。制作流畅、高精度还原:满足专业级影视剪辑需求,显示色彩逼真,细腻,无损还原图像色彩和亮度。满足专业级影视设计渲染要求,高刷新率保证高速动态视频场景下的流畅体验。按需便捷使用:影视制作由多个公司、多人协作完成不同环节,随时的多方访问共享资源,高效协作,快速接入。云电脑需即开即用,按需扩容算力、存储。数据安全:影视数据在公开上映之前存在高安全保密需求。算力边缘算力机房瘦终端瘦终端瘦终端CPE影视制作企业12G带宽,RTT1.5ms 用户远程操作云电脑 4k/165fps显示渲染服务器存储服务器企业存储服务器托管 读取数据用于修模/建模 算力读取模型数据企业存储服务器托管硬盘数据导
34、入存储服务器摄像机摄像机多机位硬盘加密收录拍摄现场算力时代全光运力应用研究报告(2024 年)15 处理数据和网络传输数据均使用物理硬隔离,制作人员操作云电脑只接触显示画面不接触影视数据源,且显示画面经过安全处理。(2)影视、综艺制作的网络要求影视、综艺制作的网络要求 影视制作高性能云电脑要求高刷新率、高分辨率保证,因此对时延、带宽都提出比其他行业的更高要求。影视制作上云需要低时延、大带宽、物理隔离的网络。灵活大带宽要求:影视制作使用 4K 分辨率显示器,刷新率主要为 144 帧/秒,部分高要求的要 240 帧/秒,单台 4K/144 帧/秒云电脑带宽需求为 250Mbps,同时运行 1020
35、 台,日常接入带宽要求为2.5Gbps-5Gbps,影视原始素材 100TB 左右,传递需要 10100Gbps 左右带宽,网络需要弹性带宽可调能力。低时延要求:与云网吧网络时延需求类似,影视制作云电脑由于144/240 帧/秒高刷新率和 4K 分辨率的高色彩、高精确度要求,需引入更强算力 GPU 和增强型本地瘦终端,网络 RTT 时延要求1.5ms。安全加密:数据传输通道需要与其他通道硬隔离,需支持国密加密传输,考虑传输带宽和数据处理量比较大,制作时处理实时性要求高,需支持硬件加密。(四)(四)智慧家庭娱乐智慧家庭娱乐 1.智慧家庭应用场景 云游戏及 VR 应用成为家庭应用新场景。智慧家庭应
36、用通过对现实世界的数字化,例如巨幕影院、游戏、XR/VR 等,为家庭用户带来沉浸式的生活体验。游戏是典型的家庭应用场景,区别于传统本地游算力时代全光运力应用研究报告(2024 年)16 戏,云游戏使用云端 GPU 算力资源,为强交互性的在线视频流,如图 6 所示,玩家可通过鼠标、键盘、手柄等输入设备对游戏进行实时操作,云端服务器通过 GPU 进行渲染,并将渲染完毕后的游戏画面和声音压缩后,通过网络传输至电脑、移动终端、机顶盒等终端,由终端设备进行编解码操作,在本地显示画面和播放声音。云 VR 是将云计算的理念及技术引入到 VR 业务应用中,其基本原理与云游戏类似,VR 应用程序运行在云端服务器
37、上面。充分利用云端强大的 CPU与 GPU 进行 3D 图形运算和渲染,并将渲染后数据以视频流形式,通过高速稳定的承载网络,传送至一体式 VR 头显等用户终端设备,让用户无需购置昂贵主机或高端 PC,即可享受各种高清晰、低延迟的 VR 业务。来源:中国信息通信研究院 图 6 智慧家庭云游戏场景 超低时延是保障云游戏和 Cloud VR 应用体验的基础。以 3A 电竞类游戏为例,最佳体验是 144 帧/秒,每帧间隔 6.9ms,要求网络RTT 时延1.5ms,同时业务对抖动的要求也比较高,抖动高会导致游戏掉帧画面模糊和卡顿。Cloud VR 为了防止眩晕,对业务端到端的时延有明确要求,其关键指标
38、运动的光子延迟(MTP)指一个用户的算力时代全光运力应用研究报告(2024 年)17 操作需要充分反映在显示屏上的时间,Facebook 旗下的 Oculus 公司经过测试验证,MTP 时延目前公认能接受的是20ms,扣除用户端操作处理时间及云上处理时间,要求网络 RTT 时延2ms。智慧家庭娱乐存在按需带宽调整需求。云游戏与 Cloud VR 用户按需使用云端算力,算网同开同停,需要具备感知用户业务并按需提供链接和带宽的能力。2.智慧家庭网络需求 家庭云游戏和 Cloud VR 本质上是算力云化和服务化,要达到和本地化相同的体验要求、以及按需的服务诉求。稳定带宽保障:家庭云游戏和 Cloud
39、 VR 的在不同分辨率、刷新率下的带宽需求和云网吧一样,为保证家庭的基本体验,起步分辨率和刷新率要求是 1080P、60 帧/秒,更佳体验优选 2K、144 帧/秒,要求网络带宽达到 120Mbps 能力,将来 Cloud VR 达到 4K、60 帧/秒或4K、144 帧/秒,则带宽要求达到 150Mbps 或 250Mbps 以上。确定性低时延:网络时延要求主要由帧率、云端 GPU 和本地瘦终端处理时间决定,应用体验要求同本地处理一样不劣化,家庭侧体验优选体验是 2K、144 帧/秒,网络时延和云网吧一样要满足RTT1.5ms 的要求。考虑家庭侧存在一部分低性能瘦终端及云侧上一代 GPU 算
40、力的利旧,部分用户体验可适当降低到 1080P、60 帧/秒,每帧处理时间是 16.7ms,云端 GPU 处理时间 8.5ms,瘦终端处理时间 5ms,网络 RTT 时延可放宽到3.2ms。业务感知及连接弹性拆建:当家庭用户上下线时,需要网络能够算力时代全光运力应用研究报告(2024 年)18 感知终端的启动和关闭,同时感知业务类型、使用状态、以及性能指标,以便实时能够保证用户体验。Cloud VR 等业务对时延敏感,需要保障业务时延抖动稳定无变化,现有共享带宽模式不能保证业务体验,需要提供刚性管道,在感知到用户上下线时,需要网络能够具备业务连接秒级动态拆建能力,让用户的服务体验为即开即用。(
41、五)(五)分布式模型训练分布式模型训练 1.AI 多 DC 分布式训练应用场景 大模型训练对计算资源需求急速增加,大规模智算训练存在分布式部署需求。随着 AI 技术的迅猛发展,文生图、文生视频类、多模态大模型成为 AI 领域的热点,正在加速推动智算领域的发展。模型的参数量急剧增长,最新发布的 GPT4、谷歌 Gemini 1.5 已达到了万亿级别的参数,GPT5、Gemini2.0 预计达到 10 万亿规模,同时模型的序列长度也从 4K 快速增长到 100 万以上(如 Gemini 1.5)。模型的参数量以及序列长度快速增长带来模型计算资源需求急剧增长,从最初的数千张智算卡集群,迅速扩展至数十
42、万张,甚至百万张智算卡的超大规模集群,如微软及 OpenAI 的星际之门项目,预计需要数百万计算卡。超大规模集群动辄数十兆瓦的功耗需求,电网的承载能力也面临巨大挑战,微软公司为 OpenAI 训练 GPT6 时,需要的算力超过10万张H100智算卡,由于电力供应限制,采用跨区域的分布式训练。面对超大规模集群动辄数十、数百兆瓦的功耗需求,电网的承载能力面临巨大挑战,跨数据中心的智算分布式协同成为解决方案之一。多中心算力资源聚合成为业界大模型训练的解决方向之一,网络算力时代全光运力应用研究报告(2024 年)19 需要提供大带宽、高可靠互联的能力。智算分布式协同场景是将两个数据中心通过网络互联,组
43、成广域无损网络,支撑不同数据中心间智算卡间按需组成超大模集群。智算分布式协同包括算力资源池聚合及空闲算力资源整合两种场景,如图 6 所示。算力资源池聚合场景下,分布式智算拉远训练将已建成的分散在不同地理位置的小型智能计算中心连接起来,整合成大智算集群,以扩大算力资源,形成大型算力资源池,为训练更大规模的人工智能模型提供支持。空闲算力整合场景下,为避免单个智能计算中心的空闲算力呈现出碎片化状态,通过智算中心间互联构建算力共享资源池解决智算碎片问题,提升算力资源的利用率。多中心算力资源聚合的二种场景,网络都需要保证多个算力中心之间的低时延及可靠互联,并提供敏捷的超大带宽能力供给能力,保证互联的算效
44、。来源:中国信息通信研究院 图 7 算力分布式部署场景示例 2.智算分布式训练的网络要求 100KMDC1DC2100KMDC1DC22000卡3000卡算力资源池聚合算力碎片资源聚合算力时代全光运力应用研究报告(2024 年)20 针对智算分布式训练场景,为保障两个数据中心间 AI 算力卡间的数据快速可靠传输,对网络带宽、传输质量都提出了很高的要求。超大带宽:集群互联带宽需求达到百 T 量级,以双集群每个集群5000 卡、单卡速率 200Gbps 为例,需要的最大互联带宽为 1000T,通过优化集合通信库,将流量尽量封闭于 DC 内部,跨 DC 采用数据并行(DP)通讯,对稠密模型和万亿及十
45、万亿稀疏模型的仿真显示,可以将千 T 的互联带宽压缩到百 T 量级。高可靠传输:智算卡计算中互相传递数据过程中如发生传输错误,即使通过重传机制,但等待重传仍会影响计算效率,如果故障导致当次计算中断,大模型会从上个 checkpoint(检查点)重新启动计算,当前典型的 checkpoint 间隔一般为 3-4 小时,计算中断会影响几个小时训练,大幅增加计算成本。为了防止网络中断导致的训练中断,网络需要具备高可靠传输能力,保证智算不中断,以防智算卡间的协同计算受到影响。敏捷拆建:算力一般采用分时的方式租给不同客户,不同客户、不同时间段智算任务的算力需求不同,网络需要根据算力中心间协同的算卡数量,
46、根据智算任务周期按需建拆并分配不同的带宽资源。稳定低时延:训练过程中为保证跨数据中心计算卡之间保持同步,提升通讯稳定性以及保证集群的计算效率,需要保障智算分布式网络具备稳定低时延能力,DC 之间可采用直达架构,网络需避免光缆绕远、避免增加转发设备以降低网络时延。算力时代全光运力应用研究报告(2024 年)21 三、全光运力关键技术 为满足大型企业高性能算力、中小企业集中共享算力、家庭用户灵活算力的应用需求,网络需要面向不同用户提供带宽按需、时延稳定、安全可靠、即用即开的运力,实现算力的按需灵活应用。面向算网时代企业及用户算力连接需求的全光运力整体架构如图 8 所示,具备超大带宽、确定性低时延、
47、高可靠安全、业务动态感知、算网协同控制等能力特征。来源:中国信息通信研究院 图 8 全光运力解决方案架构图 全光运力关键技术能力特征包括:(一)(一)超大带宽超大带宽 面向大数模型训练的算间协同的大带宽连接。算力中心间连接的百 T 级别的带宽需求,高速线路支持单波 400G/800G,可演进支持到家庭算力中心接入企业汇聚核心干线边缘云算力中心 超大带宽确定性硬管道安全接入算网协同管控系统全光网络管控系统算力管控系统按需建立连接动态分配算力算网资源管理算网智能决策算网融合编排多因子算路性能管理故障管理网络资源管理算力资源管理算力资源调配业务配置管理 业务感知调度 算网协同控制 高可靠安全 确定性
48、承载算力时代全光运力应用研究报告(2024 年)22 1.6T 或更高速率,光层扩展频谱支持 C+L 波段,80 波 800G 达到单纤 64T 容量,未来可演进达到单纤百 T 容量。来源:中国信息通信研究院 图 9 超大带宽连接(二)(二)确定性确定性承载承载 企业、家庭用户上云后,需要保障多种上云应用与本地化体验相同,要求网络提供稳定的带宽和时延接入算力中心。管道硬隔离:通过 fgOTN、OSU 以及光通道数据单元(ODUk)等技术,为用户分配专属固定带宽,实现物理隔离传输,确保云端数据(视频、数据流)一跳直达用户终端,打造专属高速、互不干扰的数据传输通道。确定性低时延:考虑云网吧、云游戏
49、类强交互应用,需要稳定时延的管道。基于上述硬管道隔离技术以及智能管控系统的可视化运力时延地图等技术,提供清晰全面的路径时延信息,并给客户提供最优的传输路径,确保数据传输的确定性时延。(三)(三)高可靠高可靠安全安全 算力上云后,用户需要频繁与算力中心进行数据交互,经过的网络需要保障数据的可靠传输,保障数据传输安全,避免被窃取或篡改。多路由保护恢复:网络光缆故障频繁发生,且存在光缆同时中断算力时代全光运力应用研究报告(2024 年)23 的故障情况,在提供网络保护的基础上,引入多重路由恢复技术,在网络发生多处光缆同时故障时,保障业务正常运行。无损传输和保护:线路光缆功率波动容易导致误码,通过线路
50、侧提供前向纠错(FEC)纠错能力,把线路传输过程中的少量误码通过算法纠正到“0”误码。光缆故障情况下即使有保护倒换,业务存在瞬态中断,对高要求的业务,需要提供无损保护技术,在光缆故障发生保护倒换时,实现业务 0 丢包。安全加密:对高安全要求的数据,在传输过程中对数据进行加密,引入量子密钥、国密算法等技术;考虑较多应用需要大带宽传输,加密处理要不影响业务时延,考虑在 L1 层提供物理层加密,实现数据安全可靠传输。(四)(四)业务感知业务感知调度调度 面向用户提供业务及网络资源的按需使用,满足用户低成本诉求。需要对用户的业务及网络资源使用状态进行感知,在此基础上,通过网络动态拆建及带宽弹性调整,为
51、用户按需分配网络资源以满足其服务级别协议(SLA)需求,降低用户使用成本,提升网络资源利用率。业务感知:用户申请使用时,业务接入节点能感知到客户侧业务信息,识别业务类型,判断业务源宿、带宽需求、业务可靠性等级,通过控制协议在节点间传递业务源宿和网络节点的关联关系,通过管控系统决策形成转发面映射路径,用于业务动态创建,把不同类型的业务流按需传输到对应的算力中心,并能感知停用状态,通过协议通知概况系统拆除业务。算力时代全光运力应用研究报告(2024 年)24 来源:中国信息通信研究院 图 10 业务感知流程示意 业务动态拆建:感知到业务请求后,已经有现成管道的,通过调整映射关系把业务映射到现有管道
52、中,直接打通业务,并把新的业务和映射关系通过控制协同传递到管控系统。当前无可用管道的,需要根据业务源宿、带宽、保护等级等 SLA 需求,通过控制协议传递到管控系统,管控系统根据分配资源创建满足要求的业务。用户使用完成后,自动拆除业务或解除业务映射关系。业务动态创建有时效性要求,业务创建时间需要达到秒级。带宽弹性调整:部分企业日常百 M 级带宽即可满足使用需求,在数据传输上云期间,需要较大带宽。数据传输具有周期性,如夜晚上传为主,需要提前申请大带宽使用,通过带宽日历等方式,定时触发带宽调整,到达申请使用的时长后,自动调低带宽,或数据传输完成后,用户侧设备自动发送带宽调整请求,管控系统根据用户请求
53、下调带宽。带宽调整期间,用户可能还有其他业务在使用网络,带宽调整不能影响网络正常使用。汇聚核心家庭娱乐办公/生产业务接入点入算节点算力中心2算力中心1入算节点游戏AI训练云渲染仿真设计业务感知全光网络管控系统协议控制基于感知网络控制算力时代全光运力应用研究报告(2024 年)25(五)(五)算网协同控制算网协同控制 算力和全光运力需要协同工作,实现算力和网络资源的统一编排、协同调度,提供算网融合的统一服务。算网协同调度:算网管控系统需要实现资源统计、需求决策、业务编排能力。网络管控系统把网络的带宽、时延等数据传递到算网管控系统,算力管控系统把算力分布、使用情况、出口带宽等传递到算网管控系统。业
54、务需求到达时,算网管控系统根据业务需求,分析算力需求和网络需求,根据用户位置和算力中心位置、业务 SLA 等级,进行资源编排,把编排的网络需求下发给网络管控系统进行业务开通,同时传递算力需求到算力管理平台。通过算网管控系统的编排处理,实现算网协同调度。业务使用完后,算网管控系统通知算力管理平台、网络管控系统释放资源。算网融合计费模式:新型应用以算力+运力组合的方式提供应用,需要提供算网融合类产品的新计费方式,需要进行商业模式创新,算网管控系统需要按照用户需求动态分配算力及网络资源,并提供计费相关数据信息,把业务及算力资源使用情况和使用时长传递到计费系统,计费系统根据使用的算力(算力资源类型、算
55、力资源数量)、网络(带宽、时延、保护)等情况,结合使用时长进行计费。四、行业应用案例(一)(一)智慧交通案例智慧交通案例 全光运力升级实现智慧交通网络快速扩容。广东省某市交管局引入智能摄像头后,图片、视频数据急剧增长,导致原有千兆网络满负算力时代全光运力应用研究报告(2024 年)26 荷运行,网络资源紧张,亟需实现网络业务扩容。新方案以光线路终端(OLT)全光接入交叉路口设备,单路口带宽高达 10Gbps,利用光网络硬隔离承载多业务,简化光纤电缆部署,避免路面开槽施工,交付周期缩短 80%。汇聚核心层引入光传送网(OTN),单波 800Gbps传输,单纤 64Tbps,应对未来业务带来的扩容
56、需求。来源:中国信息通信研究院 图 11 智慧交通案例 全光运力为用户带来全业务承载、专网品质、高效投资多重便利。用一张网承载各部门、各类业务,满足安全、管理需求。OTN 专网专用,实现高品质、超大带宽传输,满足系统与业务快速增长要求,避免重复建设对业务的影响,保护投资,同时满足未来扩容需求。(二)(二)数字云网吧案例数字云网吧案例 全光运力支撑实现算网一体化,为云网吧用户提供电竞级服务。区域1区域2中心局网管数据分析平台OTN核心环OTN汇聚环OTN汇聚环OLTONUOLTONUOLTONUOLTONU算力时代全光运力应用研究报告(2024 年)27 云网吧模式下,网吧业主不再需要一次性购买
57、电脑终端,网吧所需游戏、视频等运算过程和内容均在云端完成,网吧侧只需配置显示器、鼠标、键盘等轻量资产,可实现快速开店、轻量运维,节能环保,灵活运营,同时依托高性能算力和网络技术,技术和设备实时更新便捷,有效保障用户体验,并实现了网吧经营行为和内容的集中管理。昆明某运营商采用 OTN 专网,结合边缘算力资源池和算网管控,构建算网融合的端到端解决方案。该方案将网络从环网升级到 Mesh 组网,用户从接入机房直接通过 OTN 全光交换到边缘算力池,形成 1ms 算力时延圈,向用户提供本地无差异的 2K 高分辨率、240 帧高刷新率的电竞级体验。通过监测每个网吧流量变化,根据流量自动调整带宽,实现按需
58、分配带宽能力。采用算网资源统一编排策略,将边缘算力资源和 OTN 网络资源进行统一调配,终端上线自动申请业务带宽,下线同时释放算力和网络资源,最大化降低边际成本。通过分时复用OTN 大网资源,为用户供给最优性价比的算网一体服务。来源:中国信息通信研究院 图 12 数字云网吧案例 全光运力助力网吧降低一次性投资成本,提升运营商营收。该方案助力网吧降低一次性的投资成本,运营商从销售专线到销售算力网络,提高营收。通过算力资源的集中池化与智能编排,整合社会分散运营商IDC机房交换机互联网出口CPU/GPU算力区电竞酒店10G网咖10G网络RTT时延1msinternet算力时代全光运力应用研究报告(2
59、024 年)28 的算力资源,最大化算力资源共享,提升资源利用效率,降低大众用户获取算力的成本,提升算力获取的便利性,服务算力数字经济建设。(三)(三)智家云电脑案例智家云电脑案例 全光运力连接家庭和云端算力为家庭用户提供网吧级体验。随着网络和算力的增强,家庭云电脑逐步走向 2K、60 帧/秒,以及 2K、144 帧/秒以上的体验,由更清晰的画质和更流畅的视频体验。广东某运营商基于 OTN 组网,率先开通云游戏试点,实现家宽体验最小达1ms,推动游戏业务由网吧走向家庭娱乐。方案构建家庭入算/上网双平面解决方案,高价值业务走 OTN 管道保证品质,上网业务走家宽通道,两条管道互不影响。接口速率方
60、面,60 帧和 144 帧场景均使用OSU 的 10GE 口。承载方案方面,ONT 采用双广域网(WAN)口分流,接入端采用无源光网络(PON)软切片,OLT 和城域 OTN 采用10GE 对接,新增云游戏、Cloud VR 业务入云管道采用 OTN 网络承载,保障端到端稳定低时延。来源:中国信息通信研究院 图 13 智家云电脑案例 为家庭用户带来高品质娱乐体验,提升运营商营收。方案将云网运营商GPU机房云游戏业务路由器交换机互联网出口GPU算力区存储区云管理中心internet家庭云游戏家庭Cloud VROTN网络OTN设备算力时代全光运力应用研究报告(2024 年)29 吧算力资源同家庭
61、云游戏、Cloud VR 场景进行算力资源池共享,过本地瘦终端+云端算力服务,降低用户上云入算成本,增强用户家庭娱乐体验。同时提升业务每用户平均收入(ARPU)值,拓展用户数量,增加运营商收益。(四)(四)智算拉远案例智算拉远案例 全光运力实现三地智算中心 800G 互联。因算力设施规划规模有限,人口密集地区的单体智算中心的算力、空间、供电等资源有限。业界提出分布式智算集群方案,为解决将物理上分散的智算资源整合成一个智算集群。方案于 2024 年在北京三地之间通过 800G C+L 超高速波分互联三个相距百公里的 AI DC,实现全光直达。为保证大模型训练的稳定和算效,网络需要弹性能力,实现网
62、络匹配算力分时复用的能力,并具备任意二次断纤容量不下降的能力。在线路光纤性能劣化后,自动预警链路故障,并自动优化,保证传输链路的稳定,保障智算拉远训练时高可用。来源:中国信息通信研究院 图 14 智算拉远案例 分布式训练集群解决算力互联及资源整合问题,帮助用户部署大型智算集群。通过 800G C+L 实现智算集群的超大带宽互联,降低单智算C智算A智算B800G C+L算力时代全光运力应用研究报告(2024 年)30 比特成本,网络提供波长级动态拆建能力,匹配算力需求,实现带宽随卡数分时复用,同时DC之间采用一跳直达架构,无中间转发设备,实现稳定低时延,保持计算效率的稳定。实测结果显示,在百公里
63、互联范围内,分布式智算集群的性能下降在 5%以内,符合理论分析,可通过超大带宽的互联解决电力及资源聚合的难题。五、总结与展望 随着产业数字化转型的推进、基于 AI 的各类数字化应用的蓬勃发展等,企业和家庭用户的算力需求持续增长,不同垂直行业的应用场景向网络提出大带宽、高可靠、低时延、安全加密,以及基于业务感知的连接灵活拆建等差异化承载需求。为实现大型企业品质联算、中小企业灵活用算、家庭用户便捷入算,全光运力需要面向不同用户,提供带宽按需、时延稳定、安全可靠、即用即开的能力,支撑实现算力的按需灵活调度。算力时代下的全光运力将向超大带宽、确定性承载、高可靠安全、业务感知控制、算网协同控制等技术特征发展演进。立足算力产业发展时机,聚焦算力时代下的全光运力应用发展,建议产业各方继续在关键技术研发攻关、行业应用场景挖掘、业务及应用模式创新等方面协同推进,逐步构建面向各类垂直行业及家庭用户差异化联算需求的高品质全光运力,助力培育新质生产力,赋能数字经济高质量发展!中国信息通信研究院中国信息通信研究院技术与标准研究所技术与标准研究所 地址:北京市海淀区花园北路地址:北京市海淀区花园北路 52 号号 邮编:邮编:100191 电话:电话:010-62300112 传真:传真:010-62300123 网址:网址: