《中国信通院:算力时代全光网架构研究报告(2024年)(34页).pdf》由会员分享,可在线阅读,更多相关《中国信通院:算力时代全光网架构研究报告(2024年)(34页).pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、中国信息通信研究院技术与标准研究所 2024年9月 算力时代全光网架构算力时代全光网架构 研究报告研究报告 (2022024 4 年年)版权声明版权声明本报告版权属于中国信息通信研究院,并受法律保护。本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应转载、摘编或利用其它方式使用本报告文字或者观点的,应注明注明“来源:中国信息通信研究院来源:中国信息通信研究院”。违反上述声明者,本院。违反上述声明者,本院将追究其相关法律责任。将追究其相关法律责任。前前 言言 随着行业数字化转型的深入及人工智能(AI)大模型技术的发展,AI 在千行百业中的融合应用
2、日益丰富,企业及家庭用户对算力资源的需求快速增长,数字经济已进入以人工智能+算力为核心生产力要素的算力时代。全光网作为运送和支撑调度算力资源的关键底座,其重要性日益凸显。算力时代下,各类算力应用场景向全光网提出新需求挑战,如多级数据中心间的算间互联带来大容量、低时延及云边协同,以及企业及家庭用户入云用算带来便捷接入、安全可靠及灵活敏捷等需求,全光网亟需加速演进,逐步升级网络架构和传输能力,支撑各级算力资源的灵活互联和用户高品质应用入算。面向支撑算力创新应用、赋能行业数智化转型发展的愿景,本报告详细分析了算力时代下的高品质联云入算、城市内算力互联、枢纽间算力互联以及网络智能化调度四大需求,总结了
3、稳定大带宽、安全高可靠、确定低时延,以及智能化服务等全光网发展四大特征,包括,提出算力时代的全光网目标架构和关键技术体系:一是通过全光DCA(数据中心接入),提供灵活高品质入算能力,以网促算;二是通过全光 DCI(数据中心互联)实现数据中心高效互联,以网强算;三是通过光电融合 DCN(数据中心网络)助力提高算力资源利用效率,以网补算;四是通过灵活一体调度的智能管控平台,使能算网高效敏捷调度。期望通过本报告研究成果,为我国全光网技术创新、融合应用及产业生态发展提供参考,助力我国数字经济持续高质量发展。目目 录录 一、算力时代推动全光网高质量创新发展.1 二、算力时代全光网发展的四大需求特征.2(
4、一)高品质联云入算,开启万兆光网接入时代.3(二)城市内算力互联,打造 1ms 全光接入时延圈.7(三)枢纽间算力互联,构筑高速可靠全光底座.8(四)网络智能化调度,使能算网高效协同发展.10 三、算力时代全光网目标架构和关键技术.11(一)算力时代全光网目标架构.11(二)以网促算,全光 DCA 实现用户高品质入算.12(三)以网强算,全光 DCI 实现数据中心高效互联.17(四)以网补算,光电融合 DCN 助力突破算力瓶颈.22(五)灵活一体调度的智能管控平台.25 四、总结与展望.28 图图 目目 录录图 1 基于全光接入网络的智慧汽车工厂.6 图 2 全球相干光传输网络带宽增长.10
5、图 3 全光网的目标架构.12 图 4 万兆智慧家庭的高品质入算方案.14 图 5 中小企业的全光网络入算方案.15 图 6 大企业高品质专线入算方案.16 图 7 枢纽间互联骨干网立体扩容.18 图 8 光电保护协同提升网络可靠性.19 图 9 光电联动技术实现业务快速发放.20 图 10 算力接入 1ms 城市的城域全光网架构.21 图 11 DCN 采用 OXC 的光电混合组网方案.23 图 12 全光网多维灵活感知.26 表表 目目 录录表 1 多业务并发场景网络需求.4 表 2 XR 教室对网络指标的诉求.5 表 3 智能制造企业的工业自动化系统带宽需求.7 算力时代全光网架构研究报
6、告(2024 年)1 一、一、算力时代全光网高质量创新发展 人工智能发展对算网融合服务能力提出更高要求。国际货币基金组织认为,人工智能将促进全球经济增长,影响全球近 40%的工作,企业和个人用户对人工智能和算力服务的需求,将会像用水用电一样成为必需,对算力服务的及时性、便捷性和可靠性,也会有更高要求。另一方面,大模型训练对计算资源的需求急剧增加,然而数据中心受到地域空间、供电能力、供需不均衡等制约,多个数据中心实现分布式算力集群需高质量的通信网络提供连接,协同调度发挥最大的效能。各国积极探索实践算力时代的全光网络技术创新。纵观全球,各主要国家和地区均将光网络建设作为提升数字经济建设的基础之一,
7、如中国的算力基础设施高质量发展行动计划,欧盟的2030 数字罗盘,美国联邦的宽带公平接入与部署计划(BEAD)、联邦通讯委员会的连接美国基金(CAF),以及新加坡数字蓝图等,都通过产业政策、科研计划、发展蓝图等多种形式,加强数字基础设施底座的光纤通信网络建设,以获得更高品质的算力联接和应用。各国的科研机构、企业都在探索实践算力时代的全光网络技术创新,美国最大科研网络能源科学网络(ESnet6)、中国未来网络试验设施(CENI)、欧盟国家研究和教育网络(GANT),日本 NTT 牵头成立以 6G 为目标的创新型光和无线网络(IOWN)全球联盟并推动建设全光子网络(APN),都在开展面向算力和未来
8、 6G 时代的超高速率、超大容量、灵活调度和绿色节能的光网络新技术创新研究。我国运营商积极开展算力时代全光网络发展建设。中国移动提出算力时代全光网架构研究报告(2024 年)2“4+N+31+X”的算力网络总体布局,发布九州算力光网目标网架构,实现全球首个 400G 全光骨干传送网规模商用,持续深化三级低时延算力服务圈,畅通“东数西算”大动脉。中国电信围绕国家一体化大数据中心优化网络结构,近期启动骨干 400G ROADM 设备集采,构建“四区六轴八枢纽多通道”的低时延骨干光网络底座,支撑算力枢纽间全光高速互联。中国联通已形成“1+N+X”智算梯次布局,加快建设“新八纵八横”国家骨干网,基于
9、400G 构建全光算力互联网,提供超高安全、超低时延、超高可靠、超大带宽、超长距离、灵活可调、绿色节能的高品质连接,赋能人工智能+时代高质量发展。本报告分析研判国内外全光网络发展的需求趋势,从用户入算网络(DCA)、数据中心互联网络(DCI)、数据中心网络(DCN)到智能管控平台,分析提出全光运力的目标网络架构和关键技术体系,总结明确了算力时代的全光网络发展方向,并对未来应用场景做出展望。二、算力时代全光网发展的四大特征 面向算间互联带来的大容量、低时延及云边协同需求,用户入算带来的便捷接入、安全可靠及灵活敏捷需求,一体化算力调度带来的算网协同及资源智管需求,现有全光网需持续向超大带宽、超低时
10、延、安全可靠、泛在覆盖、灵活敏捷、智能管控等方向发展,全面升级网络架构和传输能力,通过全光网构建高效泛在全光运力,打造覆盖全国的“1ms”、“5ms”、“20ms”三级时延圈,实现各级算力资源的高效灵活互联和用户高品质应用入算。算力时代全光网呈现出四大需求特征,一是稳定大带宽,根据各算力时代全光网架构研究报告(2024 年)3 行业数字化、智能化应用需求,提供稳定充足的大带宽以支撑数据流量的激增,包括未来低收敛或不收敛的大象流。二是安全高可靠,提供高可靠高安全的网络连接,确保智算业务随时在线流转,保障各行业应用顺畅和数据信息安全。三是确定低时延,降低传输链路时延和时延抖动,支撑分布式智算集群的
11、创新验证,提高行业应用的业务体验。四是智能化服务,提供自动化、智能化的光网络资源调度和运维管理服务,支持算力业务敏捷开通和高效可视运维,满足各行业数智化发展的业务需求。(一)(一)高品质联云入算高品质联云入算,开启万兆光网接入时代,开启万兆光网接入时代 各国政府和运营商都积极拥抱万兆全光接入时代的到来。新加坡政府于 2023 年发布“数字联接蓝图(DCB)”,提出五年内实现国内宽带接入 10Gbps 无缝链接,包括固定光接入、Wi-Fi 和无线通信;2024 年发布“数字企业蓝图(DEB)”,计划在未来五年内,通过人工智能解决方案、云端和集成化解决方案、提高网络恢复能力、提升员工技能,让 5
12、万家中小企业受益。2024 年 4 月沙特通信部正式发布万兆社会规划,包括万兆到个人、万兆到家庭和万兆到企业,指出光网络作为基础设施是实现沙特“2030 愿景”的关键。日本 NTT 在 2024年发布了 100G 大带宽的光专线入云连接,让客户可以通过 NTT 提供的光专线,接入全日本 70 多个 NTT 数据中心,为云运营商和互联网服务提供商(ISP)提供大容量骨干网和云服务平台,实现远程工厂机器操作、多点 CAD 协同、远程医疗等云服务。截至 2024 年 7 月底,中国固定互联网宽带接入用户总数达 6.56 亿户,其中 1000Mbps算力时代全光网架构研究报告(2024 年)4 及以上
13、接入速率的用户为 1.9 亿户,较 2023 年末净增 2684 万户,占总用户数的 29%。在高速率用户持续增长拉动下,家庭户均接入带宽达 491.5Mbps/户,同比增长 16.6%。到 2024 年中,包括北京、上海等 19 个省份、直辖市的运营商发布万兆家宽场景的试点应用。据不完全统计,全球已有超过 50 家运营商提供了万兆光纤宽带服务,万兆时代已经来临。万兆全光接入网络满足家庭、园区、企业等各类终端和业务对带宽、时延、安全的综合需求。1智慧家庭超千兆网络需求 终端类型增加及业务类型丰富,促使家庭网络带宽需求提升。随着家庭业务类型的丰富、家庭终端的多样化及并发数量的增加,以及业务体验品
14、质的提升,家庭多业务并发对超千兆甚至万兆家宽需求日益显现。个人及智能家庭终端类型日益丰富,如 8K 电视、裸眼 3D 电视、XR 头盔、家庭云盘等推动带宽需求不断增长,新兴智能家居终端如智能门锁、智能音箱、扫地机器人等,也提出新的网络带宽需求。此外,家庭交互视频和云服务业务类型不断丰富,如 XR 直播、AR/VR视频、云办公、云存储和云游戏等,都对业务体验提出新的需求。据宽带发展联盟研究,高质量裸眼 3D、8K 云游戏、在线存储等家庭业务所需带宽已达到 5 千兆,见表 1。表 1 多业务并发场景网络需求 业务类型业务类型 分辨率分辨率 帧率帧率(FPS)平均码率平均码率(Mbps)视点数视点数
15、 时延需求时延需求(ms)带宽需求带宽需求(Mbps)裸眼 3D 光场屏点播(16k)1536014400 60 868 60 视点 15 1736 算力时代全光网架构研究报告(2024 年)5 业务类型业务类型 分辨率分辨率 帧率帧率(FPS)平均码率平均码率(Mbps)视点数视点数 时延需求时延需求(ms)带宽需求带宽需求(Mbps)Cloud VR 强交互业务(8K)76804320 60 270 2 视点 15 540 浅压缩云游戏(8K)76804320 120 800 单视点 10 1600 在线云存储/15 1000 智能看家 19201080/20 智能音箱/150 54 家庭
16、总带宽需求 4950 来源:宽带发展联盟家宽多业务并发体验分级白皮书(2023 年)2智慧园区万兆网络需求 教育信息化、智能化发展推动校园带宽快速增长。随着智能化教学设备普及率逐步提升,教学领域 XR 虚拟仿真教学设备采用 8K 以上高分辨率,单台设备需要配置 160Mbps 带宽,每间教室 30 台带宽需求近 5Gbps;考虑视频直播、电子课件下载,无线投屏等多媒体系统的带宽叠加,未来XR教学教室带宽需求会接近万兆,如表2所示。当前普教类中小学出口带宽在 5001Gbps 左右,大专院校出口带宽为 110Gbps 左右,主流以 10Gbps 为主,随着 XR 教学普及单个教室带宽需要 10G
17、bps,学校出口带宽预计达到 20Gbps 到 100Gbps 以上。表 2 XR 教室对网络指标的诉求 业务业务 并发终端并发终端 单点带宽(单点带宽(Mbps)总带宽(总带宽(Mbps)电子书包 WEB 30 2.5 75 视频直播(4K)30 35 1050 课件下载 30 16 480 教学业务 无线投屏(4K)46 35 210 其它 录播(4K)4 35 140 XR(8K)30 160 4800 每教室总带宽诉求 6755 来源:中国信息通信研究院 算力时代全光网架构研究报告(2024 年)6 3智慧工厂万兆网络需求 AI 算力向制造行业边缘延伸,推动万兆工业园区网络建设。智能汽
18、车、智能制造等领域的生产企业,将越来越多依赖边缘 AI 算力来实现制造流程的数字化和智能化升级。图 3 给出了汽车制造企业采用全光网络的工厂连接方案示意图,利用 3D 机器视觉现场检验及远控中心的 AI 智能分析技术,对生产过程中的关键零部件进行实时分析,可大幅降低产品部件缺陷,提升装配行为规范性及生产效率。汽车工厂的一条产线长度超过一公里,覆盖上千个点位,采用 3D 机器视觉+AI 质检分析,每个点位需要配置 1Gbps 带宽,整个工厂需采用10Gbps 组网,并且设备和线路需配置 1+1 冗余保护,保证全时在线。来源:中国信息通信研究院图 1 基于全光接入网络的智慧汽车工厂 OLT分光器O
19、NU智慧汽车工厂控制中心高清3D检测核心交换机双发选收发动机曲轴检测导热垫检测表面缺陷检查GE到信息点位双10GE光链路边缘算力中心AI质检分析OTN算力时代全光网架构研究报告(2024 年)7 工业制造领域需要高可靠低时延网络。在精准数控和工业相机等领域要求 5 个 9 可靠性,工业生产总线涉及数十台套数控机床和上百台工业相机的系统组合,整个网络的可靠性要求会达到 6 个 9 以上。AI 质检分析及数控精准控制等需要满足实时强交互要求,网络时延小于 1ms。智能制造企业的工业自动化系统对带宽、时延和可靠性的详细要求如表 3。表 3 智能制造企业的工业自动化系统网络需求 典型应用典型应用 带宽
20、带宽 时延时延 丢包率丢包率 抖动抖动 可靠性可靠性 3D 机器视觉+AI质检(单路)1250Mbps 1ms 10-7 0.5ms 99.999%数控精准控制 10Mb/s 1ms 10-7 100us 99.999%工业全幅相机(单路)500Mb/s 10ms 10-6 5ms 99.999%数字孪生 100Mb/s 30ms 10-6 10ms 99.99%工业总线(单向)110Gbps 100us 0 30us 单套 99.995%多套叠加需要99.9999%数据来源:中国信息通信研究院(二)(二)城市内算力互联,打造城市内算力互联,打造 1ms 全光接入时延圈全光接入时延圈 金融行业
21、对网络时延要求严苛,微秒级节省意义重大。高频交易(HFT)利用自动交易系统在极短时间内捕捉市场波动并从中获利的交易策略,对时延要求更加严苛。2022 年,为降低伦敦证券交易所和Interxion 之间的网络时延,英国 euNetworks 公司累计铺设 14 公里的空芯光纤(HFC),可每公里降低 3us 时延,金融行业实现微秒级时延的节省具有重大价值。多云互联可用区(AZ)要求单向互联时延小于 1ms。亚马逊等云算力时代全光网架构研究报告(2024 年)8 服务商,在云网络建设中采用了可用性区域(AZ)设计理念,AZ 是云服务地区范围(Region)内的若干独立数据中心的集群。AZ 之间要有
22、足够距离,以降低因天气、供电等因素带来的可靠性风险,实现数据容灾备份。同时 AZ 之间需要满足往返时延(RTT)小于 2ms 要求,保障多 AZ 之间的数据传输达到实时访问及同步。个人及企业的实时云服务体验要求低时延传输。随着个人云视频、企业分支上云、汽车自动驾驶、AI 推理应用普及等业务发展,个人终端、家庭网络、企业分支、政府机构,都需要通过确定性低时延城域网络来接入城域边缘算力中心,以获得更高效、及时的算力服务。按照典型的 50km 半径范围,网络单向时延应控制在 1ms 以内。城域 1ms 时延圈已成为运营商提升网络质量目标。算力基础设施高质量发展行动计划明确要强化算力接入网络能力,要求
23、城区重要算力基础设施间时延不高于 1ms,提升边缘节点灵活高效入算能力,满足企业快速、就近、灵活、高效联接算力需求。我国基础电信运营企业积极开展算力接入 1ms 时延圈网络建设和质量监测,根据中国信通院 算力网络运载力指数评估报告(2024 年)的统计,截至 2024年二季度,三家基础电信运营企业上报满足城市 1ms 时延圈的网络数量超百个,网络覆盖半径和综合接入点比例差异较大。(三)(三)枢纽间算力互联,构筑高速可靠全光底座枢纽间算力互联,构筑高速可靠全光底座 万亿级参数大模型训练推动部署分布式智算集群方案。随着 AI大模型参数量从千亿迈向万亿,对超大规模算力需求急剧增长,单个数据中心集群部
24、署面临供电挑战。以 GPT6 为例,需要超 10 万张 H100算力时代全光网架构研究报告(2024 年)9 卡的集群规模,整体功耗约 197 兆瓦,相当于一个典型火电站 1/5 发电量。Google Gemini Ultra 模型参数量约 1.8 万亿,已采用多数据中心协同训练的分布式智算集群部署方案,解决供电问题并满足超大规模算力需求。千卡/万卡数据中心互联带宽需求达到百 Tbps 量级。华为 Atlas 900 AI 集群由数千颗昇腾训练处理器构成,要求全节点 200Gbps 网络互联,英伟达最新的Blackwell GB200单向网络速率达到400Gbps。按照单卡出口带宽 200Gb
25、ps 或 400Gbps 来核算千卡、万卡规模的数据中心间互联带宽需求,初期按照 10%规划互联带宽将达到10200Tbps,未来最大互联带宽将达到 1002000Tbps。数据中心互联推动 400G/800G 高速光传输系统部署。从全球相干光传输网络带宽预测看,数据中心互联(DCI)带宽从 2023 年开始占据光网络总带宽需求的 50%以上,且整体年增速达到 47%,同时电信运营商及互联网企业的光传输带宽也在稳步增长,如图 2 所示。国内枢纽中心的出局总带宽规划都在 100Tbps 以上,部分节点如长三角枢纽的上海青浦节点,部署带宽已经超过 300Tbps。2024 年 5 月,北京电信分公
26、司和中国电信研究院联合在现网完成智算长距无损互联技术验证,使用了单波长 800Gbps 的超高速光波分复用传输系统,光层采用 C+L 扩展波段,整个系统传输容量近 100Tbps。算力时代全光网架构研究报告(2024 年)10 来源:Lightcounting 图 2 全球相干光传输网络带宽增长 分布式大模型训练对 DCI 网络的可靠性要求非常高。在大模型训练过程中,大约每 4 小时设置 1 个检查点(checkpoint)。一旦发生光模块或网络链路故障,需要从上个 checkpoint 点重新训练,损失 4个小时训练时间将导致训练成本增加,因此对 DCI 网络的可靠性要求很高。此外传输网络的
27、误码损伤会触发 RDMA 协议的回退机制,每次丢包报文重传,传输时延会增加一个 RTT 周期,导致训练交互时延变大,降低计算效率。分布式 AI 大模型训练要求高可靠无损传输,确保网络可用性达到 6 个 9。(四)(四)网络智能化调度,使能算网高效协同发展网络智能化调度,使能算网高效协同发展算网智能化统一编排调度,赋能算力服务高效供给。依托算网融合的统一管理控制系统和服务运营平台,精准实施算网资源的协同编排与智能调度,确保算力服务的资源高效供给和性能体验卓越。向下深度整合算网的全域资源,向上全面支撑多样化算网融合业务运营,算力时代全光网架构研究报告(2024 年)11 通过融合 AI 与大数据技
28、术,实现算网资源的一体化编排、智能调度、精细管理及高效运维,构建灵活、高效、优化的算力服务生态,加速AI 智算应用发展。融合 AI 网络智能化技术,跃升全光网络运营效能。借助 AI 网络大模型和大数据智能化分析能力,深度挖掘光网络潜力,在全光网络的规划、建设、维护、优化、运营的全生命周期中,实现自智网络 L3级别的全面自动化,并向 L4 级别的智能化逐步升级,显著提升网络运营管理的效率与精准度,不仅实现故障预测预警和性能劣化的主动运维能力,还提升算网融合业务的快速配置开通、动态带宽调整和精准性能监测能力,引领全光网络迈入智能运维新时代。三、算力时代全光网目标架构和关键技术(一)(一)算力时代全
29、光网目标架构算力时代全光网目标架构 算力时代的全光网发展目标是实现网络无所不达、算力无所不在、智能无所不及的发展方向,支撑算力成为与水电一样,可“一点接入、即取即用”的社会级服务。面向算力时代的全光网目标架构如图 3 所示,由四部分组成:一是算力接入网络(DCA),入算带宽将演进到万兆及以上,并方便千行百业快速灵活入算;二是算间互联网络(DCI),带宽可达到单纤百 Tbps 容量的数据中心间全光连接;三是数据中心内网络(DCN),通过引入全光交叉调度技术优化光电融合组网性能和可靠性,提升数据中心的算力使用效率;四是算网统一编排系统和全光网管控系统、算力管控平台,实现端到端算网融合业务的资源高效
30、调度和算力服务开通。算力时代全光网架构研究报告(2024 年)12 来源:中国信息通信研究院 图 3 全光网的目标架构(二)(二)以网促算,全光以网促算,全光 DCA 实现用户高品质入算实现用户高品质入算 多种全光入算连接方案,满足不同客户的差异化入算诉求。光网络可以提供 100Gbps 到园区和企业,10Gbps 到企业和家庭的多种用户入算的网络连接方案,通过 PON 网络切片、OTN 硬管道和波长间的隔离支撑用户入算数据安全,通过全光调度一跳入算保障高等级算力应用的时延体验最低。面向家庭及企业园区等用户,可采用PON+OTN 接入方案,为不同业务提供差异化的服务管道;面向中小企业用户,可采
31、用 OTN P2MP 方案,在实现硬管道隔离服务的同时,提供业务快速开通并降低用户入算成本;面向大企业用户,提供 OTN P2P 方案,实现大带宽、高品质用户入算。全光网灵活的高品质入算连接方案,让算力应用走入千家万户、赋能千行百业,推动算力应用创新和数字经济产业生态蓬勃发展。1家庭园区万兆全光入算 FTTOFTTR50G PONEDC个人家庭园区大型企业中小企业P2P/P2MPP2P枢纽算力边缘算力枢纽算力枢纽算力DCA入算DCI 联算DCN立体全光组网算网统一编排系统全光网管控系统算力管理平台全光算力锚点全光算力网关省级算力OXC交换交换算力时代全光网架构研究报告(2024 年)13 50
32、G-PON/FTTR/Wi-Fi 实现万兆光网无缝覆盖。为实现用户和业务终端的光和无线融合接入无缝便捷覆盖,需应用新一代 50G-PON和 FTTR+Wi-Fi 融合组网技术。50G-PON 可实现住宅、商业和移动小基站回传网络的全光接入,FTTR+Wi-Fi 直接将光纤延伸至各个房间,实现全屋千兆以上覆盖能力,同时具备灵活扩展、可视、可管、可维的电信级网络优势,是构建家庭和企业高质量信息基础设施的关键。新一代 FTTR 末端无线接入网络可进一步向 Wi-Fi 7 演进,支撑南北向流量以及东西向流量转发,支持高达 30Gbps 的吞吐量,带宽相比Wi-Fi 6 提升 2 倍。50G-PON 和
33、 FTTR+Wi-Fi 融合组网技术提供泛在万兆接入,并与 OTN 网络协同调度,实现个人、企业用户敏捷入算和动态带宽调整,获得高品质的算力服务体验。PON+OTN 为万兆智慧家庭提供高品质全光入云用算体验。云游戏、云桌面和云 NAS 等算力应用延伸到家庭,需要提供高安全、高隔离和低时延的业务体验。万兆智慧家庭用户入云用算是在现有家庭网关为用户提供普通上网服务的基础上,为入算业务增加一条到边缘云的二层以太网专线,通过 PON 网络切片和 OTN 硬管道连接到部署在边缘云池的全光算力网关,如图 4 所示,提供高品质入云用算业务体验。算力时代全光网架构研究报告(2024 年)14 来源:中国信息通
34、信研究院 图 4 万兆智慧家庭的高品质入算方案 双 WAN 口实现家庭业务分流:ONT 新增 L2 桥接 WAN 口,高价值业务走桥接 WAN 口入云,上网流量走 PPPoE WAN 口。全光算力网关提供多向业务分流:全光算力网关是边缘云池流量的总入口,可以连接家庭、云端和外网,提供多向业务分流能力。不同用户间相互隔离,保障用户和用户之间的隐私,提升网络安全性;同时提供互联网的融合业务网关功能,为用户提供云主机等独享业务的二层连接,实现云游戏等业务在不同家庭用户间的网络地址转换(NAT)转发访问,以及云主机访问互联网的高速转发和服务能力。OTN 提供确定性网络体验:从 OLT 到全光算力网关之
35、间采用OTN 硬管道实现业务隔离,光网络为用户到边缘算力资源构建端到端带宽保障的二层网络,为用户提供确定性网络体验。2中小企业便捷一跳入算 PON+OTN 端到端硬切片支持中小企业一跳入云用算。影视动漫类、游戏设计类和直播数字人等企业对接入 GPU 算力服务有较高要求,不仅要求算力延伸到企业,还需要算网资源同开同停,支持管道IP城域网OTN网络L2桥接ONTTORTOR交换机云主机云游戏家庭全光算力网关边缘云池OLT端到端二层网络PPPoE分流BRASCR入算业务上网业务云主机上网流量互联网算力时代全光网架构研究报告(2024 年)15 灵活拆建和按需动态扩容。光网络为中小企业入算场景提供一跳
36、到边缘云的二层专线,通过 PON 网络切片和 OTN 硬管道一直延伸到在边缘云池的全光算力网关,入算网关连接企业和边缘云,如图 5 所示。来源:中国信息通信研究院图 5 中小企业的全光网络入算方案 端到端硬管道切片隔离:从用户 ONU 到全光算力锚点采用全光切片,区分不同企业用户,从全光 OLT 到全光算力网关用 OTN 硬管道隔离,或从用户 CPE 到全光算力网关实现端到端硬管道隔离,为每个企业提供独立 OTN 管道。管道动态拆建和带宽无损调整:感知用户上线,请求算网统一编排系统进行算力资源分配和管道拆建,算力平台驱动设备建立/删除OTN 管道和算力分配,达到算网同开同停。同时感知用户资源使
37、用状况请求进行带宽调整,算网统一编排系统驱动 OTN 管道动态无损调整带宽,提升网络资源利用率。3大企业高品质专线入算 大企业端到端高品质入云用算。政务、金融、医疗等大企业作为OTN网络全光算力网关边缘云池GPU设计/动漫/数字人等云主机OLTOTN小微企业中型企业ONUCPEP2MP全光算力锚点业务感知带宽调整算网统一编排系统全光网管控系统算力管理平台算力时代全光网架构研究报告(2024 年)16 高端行业用户,在开展办公系统云化、生产系统云化和核心系统云化的进程中,对运营商提供的云网融合业务提出了更严格和差异化的服务能力和指标要求,涉及订购、安全、可靠、感知、便捷等多个维度。端到端入云用算
38、包括云池预连接、光云管道预配置、端到端业务发放几大部分,如图 6 所示。来源:中国信息通信研究院图 6 大企业高品质专线入算方案 云池预连接:采用跨节点双归保护技术,OTN 两个节点和云池网关节点(DCGW)对接,业务流量可负载分担和主备保护双模式,实现 50ms 业务保护。云光管道预配置:当企业进行跨地市入云访问时,为了提升业务发放效率,需要合理规划网络资源,在本地网络核心或汇聚节点与中心云池之间的省干网络建立双路高速 OTN 管道,实现业务接入本地网络即可快速打通入云通道。省级/枢纽算力VLAN#1VLAN#2OTNOTNDCGWDCGW跨节点保护OTNOTNOTN客户CPE端到端云光专线
39、业务(EoS/EoO/EoOSU)云光管道预配置云池预连接全光算力锚点全光算力网关算网统一编排系统全光网管控系统算力管理平台业务受理业务自动发放OTN算力时代全光网架构研究报告(2024 年)17 端到端业务发放:采用端到端云光专线方式,实现企业订单到运营商运营系统,再到管控系统端到端的业务自动化发放,缩短企业订单履行时间,提升效率。(三)(三)以网强算,全光以网强算,全光 DCI 实现数据中心高效互联实现数据中心高效互联全光网连接不同层级数据中心,提升算力资源使用效率。随着超大模型训练对智算网卡资源的大规模增加,导致单一数据中心算力集群的电力供应成为瓶颈。同时,用算的突发性和不确定性让数据中
40、心算力负载不均衡,存在算力资源过剩空闲的情况。通过大带宽高可靠的光网络,连接不同层级、不同规模和不同位置的数据中心,支撑构建分布式智算中心集群,协同调度所有在网算力,应对更高算力诉求。同时在网算力,无论智算、超算还是通算都进行协同池化,让算力资源可以平衡调度,缓解单一数据中心算力发展的压力。通过光网络的全域低时延覆盖,实现就近入算。1枢纽算力:实现大带宽动态立体调度构建多维立体全光网络,解决网络带宽流量瓶颈。广域的智算中心间互联不仅对接口速率和带宽容量要求高,而且对流量调度能力要求更高,例如东数西算的枢纽节点,规划流量都超过了 100Tbps,这对原本就存在流量不均衡的运营商骨干网络增加了额外
41、压力。采用多维波长选择开关(WSS)构建的 OXC 设备,在网络带宽瓶颈节点扩容,实现多维立体网络升级,既解决了网络流量瓶颈,又避免了全网扩容,节省了网络建设投资,如图 7 所示。OXC 的多方向全光调度能力使得多个光传输平面组成一张统一的立体网络,实现业务全光一算力时代全光网架构研究报告(2024 年)18 跳直达,保证了低时延和高可靠性的组网需求。骨干光网络部署单波400Gps 高速光传输系统,支持单纤 100Tbps 大容量,采用灵活立体组网,进行波长调度和流量疏导,解决网络带宽瓶颈问题。来源:中国信息通信研究院图 7 枢纽间互联骨干网立体扩容 数据搬运及资源池化共享,降低入算成本。东数
42、西算战略工程的深化实施需要算力网络技术和应用协同创新发展,近期大数据搬运正是在国家算力枢纽间实现 TB 到数百 TB 级超大容量数据传输的协同创新应用,致力于解决海量数据传输网络成本高、时间长等难题。传统专线是按照租赁时长单位为月或年计费,存在专线租用费用高和带宽不能按需动态调整等问题。大数据搬运业务需要支持分钟级的快速带宽提供能力,采用按数量流量计费或以小时为时长单位的新商业模式,通过近年来的试点应用验证,已逐步获得业界广泛认同。根据用户共享带宽和分时使用的特征,在网络核心、枢纽节点进行带宽资源池化,满足不同方向、不同时刻用户的海量传输带宽需求,同时通过流量预测模型,定期修正网络的扩容门限,
43、及时扩容调整网络资源,最大化的提升带宽利用率,降低网络投资成本。光电保护协同提升网络可靠性,保障智算数据传输。面向广域智算力时代全光网架构研究报告(2024 年)19 算互联的超高速长距光传输系统对线路质量要求极高,400Gbps 光传输系统的 50ms 线路中断会导致每个波长承载业务丢包约 20Gbit 数据,智算场景的单次丢包会导致后续所有数据重传,因此需提供稳定可靠的网络快速保护机制,支持无损传输和抗不少于 2 次断纤的保护恢复能力。光电保护协同技术是在电层配置 1+1 保护技术,在光层配置波长交换光网络(WSON)的动态恢复技术,如图 8 所示。同时对光电性能进行统一规划,形成光层一跳
44、直达的可达圈,可达圈内可保障传输性能参数可用,便于快速形成光层恢复路由。光层 WSON 重路由后,需要将新路由的链路代价、SRLG、时延等信息同步到电层,通过电层的自动交换光网络(ASON)实现小于 50ms 的快速保护,同时通过 WSON 恢复光纤中断,提供更多恢复资源,在成本不增加的情况下,提供抗多次断纤恢复能力,满足算网业务 99.999%的可靠性要求。来源:中国信息通信研究院图 8 光电保护协同提升网络可靠性2省级算力:扁平化光电联动高效组网 扁平化组网打造全省一朵云。打破行政区限制,推动网络扁平化,支路板线路板线路板线路板线路板线路板线路板支路板线路板线路板WSSWSS可达圈 1可达
45、圈 2故障1故障故障1WSON恢复路由恢复路由故障故障2WSON恢复路由恢复路由故障故障1电层保护倒换电层保护倒换故障故障2电层保护倒换电层保护倒换故障2算力时代全光网架构研究报告(2024 年)20 构建超高速的全光网络底座,打造全省一朵云,实现省内算力资源统一调配,加强省内算网协同,同时高效连接国家算力枢纽中心。省干全光网络应面向三级 DC 实现扁平化组网,实现省级中心 DC、州市核心 DC、州市边缘算力 DC 之间任意路径可达,打造全省一张高速全光网,核心节点之间需满足超 10Tbps 级大带宽、99.999%高可靠和3-5ms 低时延。光电联动实现端到端业务快速发放。当前基于静态业务为
46、主的网络业务发放,需提前完成光层系统调测、光波长(OCh)业务提前部署,通过创建电交叉的方式,完成业务发放。面向智算中心间超大带宽传输需求,需同时调度多个波长来满足带宽需求,并进行光电联动调度、光层参数调测和多因子智能算路,快速开通业务以满足超大带宽连接需求,光电联动如图 9 所示。来源:中国信息通信研究院图 9 光电联动技术实现业务快速发放 光参算路支路线路线路线路线路线路线路支路OCh1nOCh1nOCh1n自动调测业务请求光电协同业务建立端到端业务调测全光网管控系统OSU/fgOTN/ODU算力时代全光网架构研究报告(2024 年)21 3城市算力:打造算力接入 1ms 时延圈 全光交换
47、网络助力构建城市算力接入 1ms 时延圈。城域内金融专线等超低时延业务需求,分布式数据中心多 AZ 冗余保护、个人与企业实时云服务业务,都需要城域光传送网络的核心到核心节点之间、以及业务接入点到核心节点之间提供 1ms 超低时延连接。为满足城市算力中心间不高于 1ms 互联和用户入算 1ms 一跳直达诉求,实现算力无损全光传输,需构建灵活调度的城域全光底座,节点间连接采用全光一跳直达,同时具备全光灵活调度能力,满足算力时代的业务动态性、任务式需求。在接入层实现光层环网保护,核心层采用网状网(MESH)组网实现多路径冗余保护,确保业务高可用性要求,如图 10 所示。来源:中国信息通信研究院图 1
48、0 算力接入 1ms 城市的城域全光网架构 城域核心引入 OXC 实现多路由无损传输。应用 OXC 技术构建金融医疗制造企业1ms入算全光算力锚点DC 1ms 互联城域核心城域汇聚城市算力城市算力城域核心M*N WSS2维ROADM:110:1120:算力时代全光网架构研究报告(2024 年)22 数据中心间全光大容量、无损网络,核心路由不少于 3 个方向,实现多路由互通和无损传输,网络可靠性达到 99.9999%,部署 400Gbps 或800Gbps 光传输系统,提供大带宽、高可靠的城域算间互联服务。城域汇聚引入低成本 ROADM 实现全光业务一跳直达。当前ROADM 主要部署在城域核心层
49、,需要推进 ROADM 部署到城域汇聚接入层,实现城域全光调度,波长级业务一跳直达,小颗粒fgOTN/OSU 端到端 1ms 入算。由于城域站点每下沉一层,站点数量增加 510 倍,因此需大幅降低 ROADM 的部署成本。汇聚节点采用新型的 MN WSS 池化共享技术,扩展 WSS 的线路端口,实现多个接入环上联一个汇聚节点并共享一组 WSS,降低设备空间、功耗和成本。接入节点部署二维 ROADM 技术,可灵活配置每个站点的波长,实现多个环间波长共享,支持波道间隔灵活可配。(四)(四)以网补算,光电融合以网补算,光电融合 DCN 助力突助力突破算力瓶颈破算力瓶颈1光电融合组网,优化拓扑提升集合
50、通信性能引入全光交换降低扩容升级成本,提升算力资源利用率。智算中心网络通常采用无收敛 CLOS 架构组网,即叶脊(Spine-Leaf)树形架构,也称胖树架构。智算中心内以太网交换机的端口能力限制了接入服务器的数量和接口最高速率,可能导致新建的物理分区(POD)无法接入现有组网架构,需要扩容以太网交换机和调整组网拓扑。当单一 AI 集群规模达到十万卡时,胖树网络架构的层数需要三层或以上,导致网络负载均衡的哈希(Hash)冲突点多,造成集合通信性能大幅下降,严重影响训练算力的利用率。采用光交换机替换顶层以太算力时代全光网架构研究报告(2024 年)23 网交换机,进行 POD 间互联具备四个优点
51、:一是光交换机有端口速率无关优势,支持未来向 1.6Tbps 及以上速率的升级演进;二是与以太网交换机相比,光交换机可大量减少互联光模块数量,网络整体故障率下降,同时可监测光路故障并实现光波长保护调度,提升了系统可靠性;三是光交换机的功耗更低,比传统以太网交换机方案节省 20%以上功耗。四是光交换机是物理端口级交换,不会出现 Hash 冲突,提升了算力利用率。采用光电混合组网的 DCN 方案如图 11 所示,光交换机部署在核心层连接各 POD,当前基于两维微机电(MEMS)的光交换机(OXC)通常支持 256256 端口,多个 OXC 与多个 POD 内的高速以太网交换机实现光电混合组网,可满
52、足百万卡集群的 DCN互联需求。启动 AI 训练任务时,需要由管控系统分析训练任务的模型并行或数据并行策略,根据并行策略分析 POD 之间的最优拓扑,完成 POD 间 OXC 连接的建立。来源:中国信息通信研究院图 11 DCN 采用 OXC 的光电混合组网方案 ServerServerServerServerServerServerServerServerSpineSpineSpineSpineLeafLeafLeafLeafOXC光交换DCN 数据中心网络OXC光交换PODPODDCN管控系统算力时代全光网架构研究报告(2024 年)24 2光电智能运维,提升可靠性优化 AI 训练效率 O
53、XC 全光信号检测技术提升 DCN 智能化运维水平。随着 AI 算力需求激增,智算集群规模日趋扩大,导致数据中心内网络设备激增,设备间光纤连接复杂化,给智算中心交付与运维带来巨大挑战。基于 OXC 的光电融合 DCN 方案不仅提升了集合通信网络性能和可靠性,还需要自动化、智能化的光电运维技术支撑,实现光电混合网络的状态实时监控和故障快速恢复。OXC 通过全光信号质量检测技术实现对链路光信号的实时检测,判断光路连接质量,快速定位光路故障,预测光路性能劣化,缩短故障排查时间,提升数据中心稳定性和可靠性,保障数据无损传输。DCN 光电智能运维可有效降低 AI 训练成本,提供更加稳定和可靠的基础设施支
54、持,并进一步增强 DCN 网络的智能化运维水平。光模块性能监控及预测性维护提升 DCN 网络可靠性。以太网交换机与光模块的通信管理是通过通用管控接口规范(CMIS)协议实现,定义了光模块与系统管理软件之间的接口和数据格式,管控系统通过 CMIS 协议实现对光模块的配置、监控和管理。数字诊断监控(DDM)作为 CMIS 协议的一项重要功能,提供了光模块的工作状态和性能的实时监控,包括输入光功率、输出光功率、温度和电压等参数,实现对光模块的远程配置、报警监测、故障预测、故障定位和性能优化能力。例如,当光模块的环境参数超出规定标准范围时,DDM 可以向系统发出报警,显示模块处于不良状态,从而触发维护
55、动作,避免潜在的网络中断。此外,DDM 还能通过监测激光器的偏算力时代全光网架构研究报告(2024 年)25 置电流来预测激光器的劣化,确保在故障发生之前采取措施,如切换到备用链路或更换可能故障的光模块。这种预测性维护减少了意外中断的风险,提高了网络的稳定性和可靠性。(五)(五)灵活一体调度的智能管控平台灵活一体调度的智能管控平台面向算力网络的全光智能管控系统,从企业点对点的专线网络调度,升级到网+算的协同调度,一方面需要增强网与算的联动,通过网络资源和算力资源的综合评估,实现算网资源协同编排的综合最优,达成“一点接入、即取即用”的高效敏捷调度目标;另一方面需要增强光网络的业务感知和保护协同能
56、力,进一步提升网络的可靠性,实现算网业务的高可靠和算力集群的高安全。1多维信息智能感知,支持算网灵活编排感知用户业务流和算力资源信息,满足用户差异化灵活入算需求。全光网管控系统可以从算网编排系统获取算力资源信息和业务识别信息,未来具备智能感知用户业务流量特征和算力资源信息的能力。光锚点可感知用户业务流,根据从算网编排系统获取的业务 SLA 标识与分流策略,全光网管控系统可配置光锚点感知用户业务流特征策略,如基于报文特殊字段对业务进行区分和识别,将不同类型的业务流,如 VR 渲染、AI 训练等,映射到不同品质光网资源,如图 12 所示。算网编排系统支持感知算力资源,及时获取算力资源信息,如总算力
57、规模、算力类型、算力使用量、空闲算力等。当算力资源不足时,算网编排系统触发算力节点迁移,同步通知到全光网管控系统,由其提供新的运力资源。算力时代全光网架构研究报告(2024 年)26 来源:中国信息通信研究院图 12 全光网多维灵活感知 2多策略匹配算网资源,实现运力敏捷调度 多策略网络评估满足算网业务的差异化诉求。全光网智能管控系统基于实时采集和分析的网络资源状态信息,通过带宽+时延+可用率等多因子选路算法,评估满足算力接入业务 SLA 诉求的网络路由,支撑算网编排系统实现运力通道的敏捷调度。面向企业资源接入算力需求,快速评估符合算力应用要求(GPU、存储资源等)的算力接入点及满足网络 SL
58、A 要求(时延、带宽、可用率等)的网络路由,实现企业快速入算;面向算力集群互联需求,快速评估该算力中心在不同时延要求下可覆盖的企业接入范围,支撑算力集群布局和网络覆盖精准优化。全光网需要支持运力按数据流量、传输时长灵活配置和调度需求。面向“东数西算/存/渲”的算网融合业务,如科研、工业、影视、医疗、制药等行业,对算力和网络的资源使用并不是长期固定的,而是呈现算网编排系统全光网管控系统算力管理平台VR渲染时延敏感无特殊要求带宽敏感光网链路2通用算力AI训练业务SLA配置时延、带宽、可靠性、丢包率全光算力锚点业务流感知VLAN、VLAN PRI、IP地址、UDP端口算力资源算力规模、算力类型、算力
59、使用量算力时代全光网架构研究报告(2024 年)27 大带宽、短时长和周期性的特征。因此全光智能管控系统需要建立运力日历,合理调配网络资源,提供业务按时预约、运力管道按流量计费和分时复用的能力,实现网络资源利用的最大化,同时降低企业的数据搬运成本,支撑更多的企业“用得起”算网。通过基于波长链路最优规划算法,综合评估所有备选路由的质量与线路速率、码型、谱宽等参数匹配度,规划出业务源/宿节点间的最优波长链路。同时对光传输系统进行全网数字化建模,通过全网光纤路径连通可达性探测和光电协同自动调测能力,实现波长链路的自动化开通。3网络质差监控分析,提供算网差异化保障 多层次监控分析与故障隐患排查,使能算
60、网差异化 SLA 保障。围绕算网业务的时延、带宽、可用率等关键指标,对光网络业务层、电层、光层、光缆等不同层次进行全方位监控分析,快速定位故障位置,实时识别风险隐患,使能算网业务差异化 SLA 保障。通过业务秒级性能监控,感知业务状态实时变化,快速排障流量突发和业务闪断类问题;通过电层、光层最优可达路径分析,识别算网业务的时延越限风险,快速推荐可优化路由,满足算网业务低时延运行要求;通过链路信号功率实时监测,实现光纤闪断自动定位,结合广域无损传输技术,提升业务端到端可用率;通过光传输特征识别,检测光纤同缆隐患,并通过主备路由分离算法避开同路由业务中断风险;通过数字孪生技术提供光纤参数快速调优,
61、快速恢复等能力,实现光系统快速调测稳定,确保算力连接的确定性和可靠性。算力时代全光网架构研究报告(2024 年)28 四、总结与展望随着 AI 技术与千行百业的深度融合,业务云化部署以及视频化、高清化趋势加速,算力需求呈现爆发式增长,分布式智算协同、数据快递等新应用需求不断出现,驱动全光网高品质连接需求进一步升级。算力时代的全光网具备稳定大带宽、高可靠、确定性超低时延、业务敏捷开通和高效可视运维等四个典型特征。全光网需要实现万兆全光接入,支撑家庭、园区及企业高品质灵活入算,通过灵活大带宽立体组网实现算间多层层级 DCI 互联,在数据中心内部引入光电融合组网提升集合通信性能及网络可靠性,灵活一体
62、化调度的智能管控平台实现算力及网络资源的深度协同。展望算力时代下的全光网目标架构及关键技术发展趋势,建议产业各方继续在新技术研发攻关、跨领域融合方案创新、业务及应用模式探索等方面协同推进,持续推动全光网向超大带宽、广域无损传输、确定性低时延、算网智能协同等方向演进,为千行百业的数智化转型提供高效、稳定和可靠的网络连接和数据传输服务,支撑算力基础设施高质量发展!中国信息通信研究院技术与标准研究所中国信息通信研究院技术与标准研究所 地址:北京市海淀区花园北路地址:北京市海淀区花园北路 52 号号 邮编:邮编:100191 电话:电话:010-62300112 传真:传真:010-62300123 网址:网址: