用时:29ms

互联网报告-PDF版

您的当前位置:首页 > 互联网
  • 未来网络发展大会:2025光电融合网络技术与产业应用白皮书(95页).pdf

    未来网络技术发展系列白皮书(2025)光电融合网络技术与产业应用白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明编写单位编写单位(排序不分先后(排序不分先后):江苏未来网络集团有限公司、紫金山实验室、江苏省未来网络创新研究院、中国联通设计院、中国电信股份有限公司研究院、中国移动通信有限公司研究院、新华三技术有限公司、武汉光迅科技股份有限公司、深圳瑞波光电子有限公司、南方科技大学编写人员编写人员(排序不分先后(排序不分先后):陶高峰、秦子健、李琳、尹睿、秦树鑫、任广臣、陈平平、黄韬、杨伟、刘刚、刘伯江、焦明涛、朱永庆、陈迅、胡泽华、杨冰、程伟强、阳进、姜文颖、王豪杰、田郁池、周鸣、赵红海、阮祖亮、刘建锋、喻杰奎、李恒、武毅博、郭鑫、李浩、胡海、汪漪,凌晨曦前言当前,以 6G、云计算、人工智能、未来网络技术等为代表的新一代信息技术正加速与实体经济深度融合,推动各行业数字化转型向纵深发展。然而,传统分离的光传输与 IP 网络架构已难以满足数字经济时代对超高速率、超低时延、超高可靠性的严苛要求。光电融合网络技术作为新一代信息基础设施的核心支撑,通过 IP 层与光层的深度融合,构建起大带宽、低时延、高可靠的确定性网络能力,为智能制造、远程医疗、自动驾驶等新兴应用场景提供坚实的网络保障。本白皮书系统阐述光电融合网络的技术特征与发展需求,深入分析长距离相干光传输技术、IP 光融合架构、光电协同的智能管控系统等关键技术,全面梳理国际国内标准进展与产业生态现状。通过剖析数据中心互联、算力网络等典型应用场景,展示了光电融合网络在降低 30%以上 TCO、提升 50%以上能效比等方面的显著优势。同时,本白皮书提出三阶段发展路径与产业协同建议,旨在推动构建开放、融合、智能的新一代光电网络体系。我们期待通过本白皮书的发布,吸引更多研究机构、企业和产业人员共同参与光电融合网络的技术创新与应用实践,把握光电融合网络技术带来的产业变革机遇,助力我国数字经济高质量发展,为全球信息通信产业升级贡献中国智慧和中国方案。目录前言.4目录.5一、光电融合网络背景.71.1光电融合网络概念和特征.71.2光电融合网络需求和意义.81.3光电融合网络发展目标.10二、光电融合网络技术.122.1技术体系架构.122.2ZRx 相干光技术.162.3IP 光融合技术.27三、光电融合网络技术发展趋势.353.1相干光技术演进方向.353.2光电融合网络的解耦和融合趋势.443.3光电协同的 SDN 控制与 AI 运维.49四、光电融合网络技术相关标准.554.1相关国际标准及进展.554.2相关国内标准及进展.60五、光电融合网络相关产品与解决方案.635.1ZRx 相干光模块.635.2光电融合网络设备.675.3光电融合管控系统.73六、光电融合网络产业应用场景与案例.776.1应用场景.776.2应用案例.78七、光电融合网络行业发展建议.837.1发展面临的挑战.837.2发展阶段划分.847.3发展对策建议.86八、光电融合网络未来展望.88附录 A:术语与缩略语.89参考文献.94一、一、光电融合网络背景光电融合网络背景1.1 光电融合网络概念和特征光电融合网络概念和特征当前网络容量需求以超过 35%的年复合增长率(CAGR)持续增长,AI、边缘计算等应用推动相干技术向网络边缘延伸。当前网络架构普遍采用“电处理 光传输”的分层方式,这一架构正面临功耗高、转发复杂、跨层协同效率低等核心瓶颈。IP 流量主导的容量激增对新一代节能技术提出更高的要求。行业正推动 IP 业务层与光传输层融合,通过将 DWDM 相干光模块直接部署于路由器等分组设备,消除独立光转发设备,降低功耗与空间占用。光电融合技术从最开始的 IP over WDM 方案,已有十余年历史,近年因开放解耦架构的普及和光模块技术进步(如微型化光电集成、相干容量提升)重获关注。消除独立光转发设备不仅降低 CAPEX,其扩展传输距离还可绕过汇聚节点,进一步节省成本。光电融合网络技术是通过光层传输与 IP 层控制的深度协同,构建的统一网络架构体系。其核心是将传统分离的光传输系统(DWDM/OTN)与分组交换设备(路由器/交换机)在物理设备层、协议层和网络管理层实现三重融合,形成下一代确定性、可编程、广覆盖的智能承载网络。光电融合网络技术具备如下三大关键特征:1.“IP 光光”协同引擎协同引擎采用高速相干彩光模块(如 400G/800G ZR 、1.6T 模块)作为IP 层直连接口,实现无电中继的长距离传输,构建从路由器到光层的透明链路。2.确定性网络增强机制确定性网络增强机制基于 SRv6 ODU/OSU 灵活复用,实现业务粒度切片(vlan/roce等)与路径稳定转发保障,支持微秒级时延控制,适应 AI/工业/金融等场景对稳定性、低抖动的极致要求。3.广域光电融合调度能力广域光电融合调度能力结合统一控制面(如 SDN 控制器)实现电信级路径动态调度,完成全网粒度识别、片段级路径编排与秒级快速发放,支持广域高效算力连接。1.2 光电融合网络需求和意义光电融合网络需求和意义随着 5G、物联网、高清视频等技术的普及,数据流量呈爆发式增长。传统通信网络在传输容量和速度上逐渐难以满足需求,光电融合网络凭借光信号高带宽的优势,能实现高速大容量数据传输,满足不断增长的数据传输需求。算力资源的分布往往和需求不匹配,导致资源利用率不高,严重影响了数字经济高质量发展,“东数西算”工程目前还面临“算不了、算不起、算不好”的问题。要解决这些难题,需构建低成本的智算互联网,以此支撑我国人工智能、大模型的发展需求,要将数据在不同地区的算力中心间高效传输和调度。光电融合网络可实现长距离、低延迟、无损的数据传输,为算力资源的跨区域协同提供支撑。人工智能大模型训练、工业控制、自动驾驶等新兴应用对网络延迟要求极高。如 AI 大模型训练中,网络抖动与丢包会严重影响性能,光电融合网络能有效降低延迟和抖动,满足这些应用的严格要求。数据中心等网络设施能耗巨大,传统电交换网络能耗较高。光电融合网络在光传输部分能耗较低,有助于降低网络整体能耗,符合绿色节能的发展趋势。光电融合网络则打破这一壁垒,提升网络资源灵活调度能力、降低网络架构复杂度,实现面向智算场景的泛在连接能力,其意义主要体现在:支撑数字经济:为 AI 训练、算网协同、大数据处理等业务提供高效、高可用底座;为智能制造、智慧城市、智慧能源等多个领域提供高性能网络支持,加速各行业数字化进程,提升生产效率和管理效能,促进产业升级。突破传统网络瓶颈:突破传统网络架构中光电信号分离以及高成本、高能耗、低效率等瓶颈,实现长距离无电中继无损承载、高性能、跨层调度、业务驱动、自适应修复等高级运维能力,为网络技术发展开辟新路径。降低部署与运营成本:统一架构减少设备种类和中继节点,显著降低 CAPEX 与 OPEX;促进算力与数据融合:为算力的传输、交易、应用打造优质平台,构建庞大的算力资源池,实现算力资源的高效调度和共享,推动算力与数据要素的流通,支撑人工智能等新兴技术发展。提升国家网络竞争力:光电融合网络相关技术是未来网络发展的关键。全球首个光电融合确定性新型算网基础设施的开通,为中国新型网络基础设施领域实现从技术突破到产业引领,迈向全球领先地位奠定了基础。同时有助于促进 DSP、硅光、TFLN、控制器等关键器件与平台的自主研发与规模应用。助力可持续发展:通过降低能耗,减少对环境的影响,有助于实现碳减排目标,促进人与自然的和谐共存,符合全球可持续发展的大趋势。1.3 光电融合网络发展目标光电融合网络发展目标光电融合网络的发展目标是通过光层传输与电层计算的深度协同,构建“光电一体、融合协同”的新型信息基础设施,以解决传统网络在带宽、时延、能耗方面的根本性瓶颈。(1)带宽升级网络带宽演进是一个不断发展提升的过程,从早期低速拨号上网,到如今的千兆、万兆光纤入户,以及数据中心的超高带宽网络,经历了多个阶段,以太网的速率也经历了从 10Mb/s,逐渐提升到 400Gb/s。未来光电融合网络需要支持 800Gb/s、1.6Tb/s,甚至 100Tb/s,从而支撑数据的速率增长。(2)确定性低时延在网络通信中,确定性时延是指数据传输的时延大小可精确预测、波动范围极小(甚至趋近于零)的特性,核心在于“可预期”而非单纯“低”。它对工业控制、自动驾驶等对时间敏感的场景至关重要。与之对应的是“不确定性时延”:时延大小随机波动,无法预测(可能很低,也可能突然增大),例如普通互联网中,视频卡顿多是因时延抖动过大导致的。确定性低时延的实现需从网络架构、调度机制、资源分配等多维度设计,消除不确定性,提升转发效率,降低时延,这些都是光电融合网络要解决的问题。(3)能效跃进在“双碳”战略驱动下,构建绿色、高效的网络基础设施成为行业共识。传统“电 光”分层架构下,多级转发、重复 OEO(光电光)转换导致整体链路能效低下。光电融合网络的发展目标之一,正是通过将高能耗的 IP 处理前移至光层边缘,利用低功耗相干模块(如400G/800G ZR )实现 IP 业务直接出彩光进入波分系统,减少两级OEO 过程,大幅减少中间设备和机房能耗。在架构层面,通过 CPO(共封装光学)、硅光集成、动态光层调度等新技术,推动网络走向“极简转发 按需编排”的绿色形态。最终目标是在保障高性能承载的同时,实现每比特传输能耗最小化,构建面向 AI 时代的低碳智联网络。(4)切片保障带宽切片保障是通过将网络带宽资源进行划分,为不同业务或用户提供独立、定制化的带宽服务,确保其性能不受其他业务影响的技术手段。利用网络切片技术将单一物理网络划分为多个虚拟网络,每个切片有独立的网络功能、配置参数等,切片间共享物理资源但业务相互隔离,避免干扰,从而保障每个切片的带宽稳定性和服务质量。目前较成熟的切片技术有光层的分光、波道、子载波、光通道数据单元、光业务单元、光交叉最小颗粒度等技术,在数据层有信道化子接口、FlexE 等,在光电融合网络架构下,这些功能将协同发挥更加高效作用。(5)智能运维光电融合网络需要改善传统的运维方式,从“人治”到“自愈”,实现自动驾驶,充分利用 AI,实现“人算”到“智算”。此外,光电融合网络需要根据用户的业务 SLA 需求做到动态智能选路,保障客户的业务情况。二、二、光电融合网络技术光电融合网络技术2.1 技术体系架构技术体系架构光电融合技术通过将 IP 路由和光网络功能集成在一个统一的架构中,减少了中间设备的数量和复杂性,减少了网络层级,使得网络管理更加简便,调度更加灵活,优化了资源利用率,提升了业务发放速度。图 1.光电融合网络系统架构图光电融合网络采用分层解耦、融合重构的技术架构。其核心结构包括三层:硬件层:由具体的光电融合硬件组成,包括彩光引擎线卡、彩光相干模块、模块化白盒波分设备、模块化白盒路由器、框式商用路由器等形态。该层直接承载业务转发与光信号调制解调,是支撑 IP 业务直接入光、光层传输、降低中继损耗、实现大带宽低功耗传输的物理基础。其形态灵活、接口丰富,可按需部署于算力集群边缘、骨干传输节点或广域边界侧。协议层:该层为设备的操作系统与功能编排系统,负责统一管理设备板卡、端口、链路等资源,支撑算力感知、自适应路径、彩光驱动、SR/SRv6、VPN、安全防护等网络服务能力。同时,封装各类硬件驱动抽象接口(如 SAI、ONLP),统一软硬件之间的调用协议与状态同步机制,实现设备的“能力开放”和“功能可编排”,构成网络智能化的核心执行单元。管控层(协同调度层):融合了“传输网管 SDN 网络控制器 数通网管”的统一编排调度系统,承担 IP 与光层资源的端到端联合调度。通过意图识别、路径计算、策略发放,构建确定性网络大脑,实现秒级响应的服务开通与跨层资源调度,是支持大模型训练、“东数西算”、超低时延业务的核心支撑平台。光电融合网络架构通过构建“管控层系统层硬件层”三位一体的融合体系,打通 IP 与光的界面,集成算力感知、路径调度、光层管理等能力,实现网络架构的整体重构与能力集成。其架构呈现出以下五大特点:1.端到端融合编排端到端融合编排架构打破 IP 与光层的传统分层边界,实现从业务接入到光层调度的统一控制,具备从路径规划到资源发放的端到端编排能力,支持确定性网络构建与秒级调度响应。2.软硬解耦、接口开放软硬解耦、接口开放引入 SAI、ONLP 等抽象接口,实现设备操作系统对多样硬件形态(芯片、线卡、模块)的封装与适配,促进产业生态开放,便于多供应商设备统一管控。3.融合多能力栈融合多能力栈网络设备不仅具备传统路由转发能力,还融合了算力感知、自适应路径、彩光驱动等智能调度模块,构成了“计算网络光传输”融合的综合服务平台。4.多样化形态适配多场景部署多样化形态适配多场景部署支持彩光线卡、模块化白盒、框式路由器等多种硬件形态,可灵活部署于核心、汇聚、边缘等多种应用场景,满足智算中心互联、骨干网演进、数据中心互联等需求。5.支持标准化协议与可编程能力支持标准化协议与可编程能力全面兼容 NETCONF、PCEP、Telemetry、BGP-LS 等南向接口协议,并支持 SR/SRv6、VPN、安全计算等网络能力开放,为构建自动化、可编程网络提供基础支撑。光电融合技术体系依赖三个方面的发展:光模块与白盒设备的发展、设备操作系统的发展、统一控制器的发展。光模块与白盒设备的发展:随着网络带宽需求增长和成本控制需求,为了解决灰光模块在大容量远距离传输时的局限性,彩光技术应运而生。随着技术的日渐成熟,业界的彩光方案有多种模式,例如DWDM 彩光方案将 OTU 模块集成到彩光光模块中,实现路由器直接出彩光进入合波设备传输,而光电一体方案则在 DWDM 基础上更进一步,路由器不仅集成 OTU 单元功能,还在发送/接收端集成分波/合波单元功能,两台路由器之间只需通过光纤连接即可。有了彩光模块,就需要数通设备支持彩光模块,与彩光模块灵活适配,在 IP 层和光层共同发展光电融合功能,但是传统的数通设备操作系统并不是灵活适配与更改的。将商用硬件与开源软件结合,打破传统厂商软硬件绑定模式的白盒设备发展至关重要。白盒核心在于通过软硬件解耦实现灵活性与成本优化,同时,白盒设备与 SDN/NFV、网络切片深度结合,实现“网络即服务”。光模块与白盒设备的互相结合,打造了光电融合网络的灵活底座。设备操作系统的发展:白盒操作系统是白盒数通设备实现软硬件解耦的核心。全球超 70%的白盒交换机采用 SONiC,亚马逊、阿里云、腾讯云均加入社区并贡献代码,支持 800G/1.6T 接口及 AI 训练所需的 RDMA 协议。白盒操作系统需要面向广域、算力、第三方应用等多场景,既可以满足广域业务的一键开通与承载,也可以响应算力的接入与调度,同时,面临用户界面的多场景应用也能灵活适配。随着多厂家加入白盒操作系统的研发,白盒操作系统在标准与成熟度上都有了质的提升。统一控制器:随着光电融合网络的不断发展,对光网络与电网络进行统一管理和控制,从而实现光层与电层的流量调度、路径计算等功能,以此提升网络灵活性与可扩展性的设计方案陆续涌现。2.2 ZRx 相干光技术相干光技术2.2.1 技术概述技术概述光电融合网络技术的发展,得益于相干光通信技术的持续突破。近年来,基于高阶调制(如 QPSK、16QAM、64QAM)、高速 ADC/DAC芯片、先进 DSP 算法与低功耗封装工艺的进步,使得相干光模块在速率、距离、集成度和能效方面大幅提升。从最初的 100G CFP 模块,到如今广泛商用的 400G ZR/ZR ,再到即将部署的 800G ZR /1.6T 方案,相干光技术正实现从骨干长距传输向城域接入乃至数据中心直连的广泛渗透。这种高性能光通信能力的普及,使 IP 与光层在物理层面具备深度融合的可行性,为构建统一架构、弹性调度、低时延、绿色高效的新型网络形态提供了坚实基础。最初的 ZR 相干光通信主要解决数据中心间光互连的问题,为数据中心之间的以太网业务信号在 80 公里到 120 公里这样的场景中提供了支持相干收发以及 DWDM 功能的光互连能力。为了实现数据中心在多供应商互联互通方面的需求,光互联论坛(OIF)经过 2016年到 2020 年 4 年时间的研究与标准制定,发布了最初的 ZR 应用协议:400ZR 标准。随后,在此基础上 400GBASE-ZR1、ZR 、FlexO-xe等不同的光接口方案在典型的 ZR 标准接口基础上被陆续提出,并在国际电联(ITU)和电气电子工程师学会(IEEE)等组织进行标准化,将 ZR 类型的相干光接口应用范围进一步扩展,覆盖短距到长距的不同场景,支持以太网业务信号直接使用相干光接口传输。图 2 展示了几个主要标准组织面向不同场景定义的相干光接口标准。图 2.不同标准组织所规范的 ZR/ZR 以及其他相干光信号接口相干光技术的发展经历了几个阶段,每个阶段都在性能、效率和集成度方面有显著提高。每个阶段主要特点:第 1 阶段相干技术:光纤容量、功率效率和每比特成本迅速提高,从 QPSK 调制过渡到 16QAM 调制,从摩尔定律中获益匪浅,数字处理消耗了更多的模块功率,引入业界首创的可插拔模块。第 2 阶段相干技术:标准化接口,在客户端外形中引入 ZR/ZR ,实现基于路由器的应用,首次部署概率星座整形解决方案,自适应波特率,使发射频谱与信道紧密匹配,更广泛地部署可插拔模块,使用75GHz 信道网格,以 60-68 Gbaud 速率运行。主要标准:400ZR、OpenZR 、Open ROADM。第 3 阶段相干技术:频谱效率逐步提高(约 20%),MSA(多源协议)插件中可互操作的 PCS(物理编码子层),提高密度和每比特成本,在可插拔外形尺寸中引入性能优化设计,以 120-136 Gbaud 速率和 150GHz 信道网格运行。主要标准 800LR、800ZR、Open ROADM。第 4 阶段相干技术:OIF(光互联网论坛)上启动的 1600ZR 与1600ZR 工作,1600ZR 优先选择单载波(240Gbaud),1600ZR 优先选择数字双子载波(250GBaud),以实现功率、性能和成本目标,针对路由器部署的小型插拔式光缆,预计运行速率为 240-272 Gbaud,信道网格为 300GHz。拟议标准:1600ZR、1600ZR 。2.2.2 关键技术关键技术1.帧结构与编码ZR/ZR 信号的帧格式参考了 ITU-T OTN 标准,使用了 FlexO 帧进行信号的封装。具体在不同速率,不同传输距离和应用场景上,ZR/ZR 和传统 OTN 的光接口在业务映射和开销使用上有具体的区别。(1)400G ZR 技术OIF 400 ZR 标准的提出首次在业界引入了 ZR 相干光接口与 ZR光模块的概念以及相应的技术方案。其涉及到业务映射,帧结构封装,光信号编码调制等多个方面。业务映射方面,400 ZR 以 400G 以太网为唯一的目标业务,沿用了 ITU-T 面向超 100G OTN 使用的灵活 OTN(FlexO)接口的帧结构,同时大幅简化了业务映射到该帧载荷区域的方式。400ZR 将 400G 以太网信号直接通过 257b 码块,使用通用映射流程(GMP)映射将其直接映射到了 FlexO 帧的载荷区域。相比经典的 OTN 业务数据流程,减少了 ODU 与 ODUCn 等多个业务层次,也因此更加适合点对点的传输场景,缺少了复杂网络汇聚与交叉的运行和维护能力。简化的业务映射带来的另一个特点是接口信号的基准比特速率可以得到优化降低。帧结构封装方面,400ZR沿用了OTN标准的FlexO帧结构。FlexO帧以 100G 帧实例为基础,随着业务速率的提升可以对多个 100G 帧实例进行交织形成信号帧。400ZR 的帧结构由 4 个 100G FlexO 帧实例经过 128 比特交织形成。400ZR 对于 FlexO 标准的开销进行了较多的简化,使用了利于相干信号的帧对齐编码和点对点场景下的告警信号开销。FlexO 加密、电再生等 ITU-T 中为原 FlexO 帧定义的开销,在 ZR 中则不进行支持。光信号编码调制方面,400ZR 使用 14.8%开销比例的 CFEC 进行编码。CFEC 是一种将阶梯码(Staircase)与汉明码级联形成的 FEC编码方案。也因此得名级联 FEC(Concatenated FEC,CFEC)。该 FEC的净编码增益大约 10.8dB,低于骨干网络中常用的各种 20%以上开销比例的软判决 FEC 编码,但是明显高于强度调制信号所使用的硬判 决 FEC。400ZR 相 干 信 号 调 制 使 用 典 型 的 DP-16QAM(Dual-Polarization 16-QuadratureAmplitude Modulation)编码。OIF 标准本身并未限制 ZR 模块实现的具体封装形式,仅要求使用可插拔光模块封装。根据市场的实际需求和发展,QSFP-DD 成为400ZR 最常见的光模块封装形式。(2)400G ZR 技术典型的 ZR 光模块应用于 80 公里到 120 公里的相对短距的以太网互联场景。对于更长距离的场景,400G ZR 光模块和光接口也逐步进入了市场。400G ZR 在业务映射和帧结构与开销方面与 400ZR 保持了一致。为了满足更强的传输性能,扩展光接口和光模块的传输距离的需求,400G ZR 会使用开销约 15.3%,净编码增益 11.6dB 的开放 FEC(OpenFEC,OFEC)。调制格式方面,早期的 400G 信号使用 DP-16QAM 调制,传输距离可达数百公里。近年来,伴随着芯片与器件技术发展,信号带宽与波特率进一步提升,400G 信号已经可以支持 DP-QPSK(Dual-Polarization Quadrature Phase Shift Keying,双偏振正交相移键控)调制,传输距离超过一千公里。(3)800ZR 技术800ZR 技术标准同样由 OIF(光互联论坛)制定,目标应用场景仍为 80 公里 DCI(数据中心互联)。该标准在业务映射与帧结构封装层面沿用了 400ZR 的方案思路:使用 ITU-T 定义的 FlexO 帧结构,将以太网业务直接映射以承载用户数据,适配合适的 FEC 编码,最后进行相干光信号的相位调制。在业务数据流程方面,以太网业务流经由 257 比特码块的 GMP映射适配至 FlexO 帧的载荷区域。800ZR 所使用的 800G FlexO 帧由8 个 100G FlexO 帧实例通过 128 比特交织方式构成。在编码和调制方面,800ZR 信号采用 OFEC 编码以及 DP-16QAM调制。(4)800G ZR 技术与 400G ZR 和 400ZR 的关系类似,在 800G 相干光信号传输的应用中,为了扩展应用范围,传输距离更远的 800G ZR 接口应运而生。在 800ZR 的基础上,800G ZR 为了提升传输距离,使用了概率星座整形(PCS)技术,因此,800G ZR 的信号调制格式为DP-PCS16QAM。800G ZR 使用的 PCS 基于查找表(LUT)实现,额外的开销为 11%。在结合了 PCS 与 OFEC 编码以后,800G ZR 的传输距离可以达到数百公里。2.调制技术ZR/ZR 相干光技术的光相位调制与相干接收技术与典型的相干光通信目前并无本质区别。针对 ZR 相对较短距离和大容量的需求,一般使用 DP-16QAM 的调制格式,以及开销比例和编码增益性能适中的软判决前向纠错码(FEC)。而 ZR 或者更长距离的光接口,则根据需求会进一步使用 DP-QPSK 调制或者星座概率整形(PCS)。下面对几种主流的调制技术进行介绍。(1)DP-QPSKDP-QPSK(Dual-Polarization Quadrature Phase Shift Keying,双偏振正交相移键控)是光通信领域中一种兼顾传输效率与抗干扰能力的调制技术,通过结合双偏振复用与四进制相位调制,在有限带宽内实现高速、稳定的数据传输,广泛应用于长距离骨干网和城域核心网。QPSK(正交相移键控)是一种相位调制技术,通过对光载波的相位进行四进制编码来传递信息。在 QPSK 中,信号被映射为 4 个离散的相位状态(通常为 0、90、180、270),每个相位状态对应 2 比特二进制数据(因 2=4),单个符号周期内可传输 2 比特信息,理论频谱效率为 2b/s/Hz。DP-QPSK 的“DP”核心在于引入光的偏振维度 利用光信号的两个正交偏振态(如水平偏振H 和垂直偏振 V)作为独立传输通道。在发送端,输入数据被分为两路,每路分别经过 QPSK 调制生成独立的偏振态信号,第一路数据经 QPSK 调制后加载到水平偏振载波;第二路数据经 QPSK 调制后加载到垂直偏振载波,两路信号通过偏振合波器整合到同一根光纤中传输,实现“单光纤双信道”的并行传输。这一设计使传输容量在 QPSK 基础上翻倍:单偏振 QPSK 在100GHz 信道间隔下可传输 100Gbit/s,而 DP-QPSK 则能实现200Gbit/s 传输,且无需额外占用频谱资源,大幅提升了光纤的带宽利用率。目前,DP-QPSK 已成为 100G/400G 光传输系统的主流技术,是骨干网承载大容量数据业务(如云计算、高清视频)的重要支撑。(2)DP-16QAMDP-16QAM 是一种在光纤通信中实现单波长超高容量传输的调制技术,通过同时利用光的偏振态和相位/振幅维度,显著提升频谱效率。DP-16QAM 可以实现单波速率 400G,无中继传输距离 600KM。DP-16QAM 相比 DP-QPSK,的核心机制的更新是在相位调制的基础上引入了幅度调制和更多的相位点。一个 16QAM 符号包含不同相位与幅度的 16 个星座点,可以编码 4 比特(因因 24=16)二进制数据。在此基础上继续使用偏振复用技术将容量翻倍以后,DP-16QAM的传输容量相比 DP-QKSP 可以增加一倍。例如 100GHz 通道间隔下,DP-QKSK 信号通常传输 200Gbit/s,DP-16QAM 则可以传输 400Gbit/s,对应了 400ZR 的标准速率。(3)PCS-64QAM64QAM 是 64 进制正交幅度调制的简称,作为 QAM 技术的高阶形式,它通过同时调制载波的幅度和相位,在一个符号周期内携带更多比特信息。在 64QAM 中,信号被映射到由 64 个离散“星座点”组成的二维坐标系统(I 路为同相分量,Q 路为正交分量),每个星座点对应 6 比特二进制数据(因 2=64)。PCS-64QAM 通过智能调整星座点出现概率,突破传统均匀调制的物理极限,实现更高频谱效率与更强的抗噪能力。PCS-64QAM 的概率星座整形“PCS”核心在于不同的星座点编码数据的概率不同。对于内层低幅度的星座点编码概率更高,外层高幅度的星座点编码概率更低,理想的概率分布应符合麦克斯韦-玻尔兹曼分布以使调制符号的信息量逼近香浓极限。通过实际概率分布的进一步调节,PCS 技术可以实现每个符号承载二进制数据量的灵活调节,例如 PCS-64QAM 的每个符号承载数据可以为 2 到 6 比特。PCS-64QAM 相比等概率的 64QAM 通常具备更远的传输距离,以降低容量的代价克服高阶相位调制的传输性能瓶颈。PCS-64QAM 的出现为单波 1.6T 及未来光网络铺平道路。3.硬件的封装与集成(1)CFP 系列:100G/200G 时代的过渡方案2010 年前后,CFP(Centum Form-factor Pluggable)系列模块开始商用,主要用于 100G/200G 长距离传输,如骨干网和城域网。最早的 CFP 模块尺寸较大(8214413.6 mm),功耗高达约 24W,采用模拟相干技术和外置 DSP 芯片。CFP 集成 DSP 成为数字相干模块以后,功耗进一步提升至 30W 以上。CFP 模块典型电接口为 1010G(CAUI-10),对应 100G 速率。随后推出的 CFP2 将体积缩小 50%,广泛支持数字相干(CFP2-DCO),电接口升级至 425G(CAUI-4)或 825G(200GAUI-8),功耗降至 15W 左右,同时兼容 100GDP-QPSK 和 200G 16-QAM 调制。后续 400G DP-16QAM 调制格式以及 850G(400GAUI-8)电接口也可以通过 CFP2 模块实现。而后续的 CFP4 封装模块虽然进一步减小了尺寸,但由于市场更倾向于高性能的 CFP2 和小体积的 QSFP-DD 标准,最终未能广泛普及。(2)QSFP-DD/OSFP:400G 及更高速率的新一代标准2018 年后,数据中心互连(DCI)对高密度、低功耗的需求催生了新一代光模块QSFP-DD(双密度四通道小型可插拔)和 OSFP(八通道小型可插拔)。其中,QSFP-DD 沿用 QSFP28 的外形(18.3589.48.5 mm),支持850G电通道(400G),功耗优化至1214W,并能向后兼容现有交换机端口。但其散热能力有限,尤其在 64-QAM等高阶调制下需要额外的冷却措施。此外,400G-ZR 标准虽采用QSFP-DD封装,但传输距离通常仅80公里左右。OSFP专为800G/1.6T设计,尺寸稍大(22.58100.413 mm),提供更高的功率预算和更好的散热结构,适用于 AI 集群互联等高性能场景,已被谷歌、Meta等超大规模数据中心采用。封装技术对比如下:参数CFP2QSFP-DDOSFP尺寸(mm)41.5107.518.3589.422.58100.4参数CFP2QSFP-DDOSFP12.48.513典型功耗(W)15W(100G)1214W(400G)16W(800G)电接口425G NRZ850G PAM48112G PAM4典型速率100G/200G400G800G/1.6T主要用途电信骨干网数据中心互连超算/AI 集群2.3 IP 光融合技术光融合技术IP 光融合将 IP(互联网协议)层与光传输技术深度融合,实现高效、灵活、大容量的数据传输,并使用标准化的 400G ZR/ZR 可插拔光模块直接从路由器端口传输相干波长。使用相干热插拔光模块可以直接从路由器端口提供密集波分复用(DWDM)功能,这有助于简化网络传输,节省资本支出,减少对网络中的转发器和光传输设备的需求,有助于简化并加速网络规划、运维和故障排除,同时 IP 光融合技术通过使用相干热插拔光模块不仅能将网络容量扩展到800G,还能将 400G 网络的传输距离扩展到数千公里。2.3.1 技术概述技术概述IP 光通过深度融合 IP 层与光层,可减少网络转接层级、显著降低建维成本并提升承载效率;经济灵活的 IP 网络与高效安全的光网络融合将驱动承载技术、设备形态和应用方案的多维度融合创新;当前集成电路的能力提升、硅光及光电合封等关键技术的日趋成熟、设备 SDN 南向接口的融合统一,为网络融合和大规模部署提供了坚实支撑,成为面向未来高效承载网络的重要演进方向。IP 光的融合包括管控融合、协议融合、硬件融合三个维度。在管控融合维度,通过 SDN 统一控制器实现 IP 层与光层的联合资源调度和智能运维,打破传统分离式管理模式;在协议融合层面,通过Netconf 等技术实现协议栈的语义互通,解决 IP 与光协议间的语义鸿沟;在硬件融合层面,通过可插拔相干光模块、共封装光学(CPO)等技术创新,实现设备层面的深度集成,降低传输时延和功耗。2.3.2 关键技术关键技术1.管控融合将光网络和电网络进行统一管理与控制,实现对光层和电层的流量调度、路径计算等功能,提升网络的灵活性与可扩展性的设计方案陆续产生。管控融合的技术路线呈现从协议互通到智能融合的演进脉络,核心技术包括协议协同、分层控制、统一模型与 AI 赋能。未来,随着800G/1.6T 光模块、量子通信与 AI 技术的成熟,管控融合将进一步向自优化、自治化方向发展,成为支撑算力网络、元宇宙等新兴业务的关键基础设施。企业与运营商需根据自身需求选择技术路线:基础互联阶段适合业务稳定的场景;动态协同阶段适用于广域骨干网;智能融合阶段则需提前布局 AI 与量子技术储备。Juniper TungstenFabric 属于动态协同阶段,重点解决边缘计算场景的分布式控制与安全需求。OpenDaylight 属于协议驱动的跨层协同阶段,强调多协议兼容性与分布式控制。华为等 SDN 控制器属于智能融合阶段,探索量子通信与 SDN 的深度集成。在当前网络管控融合的实践中,业界主流采用两种方式:第一种是光电融合路由器的双 SBI 管理方式,其主要特点是将光电融合路由器的管理权限在 IP SDN 控制器和光 SDN 控制器之间进行共享。这种方式要求明确划分两种控制器的权限边界及互通规则,以避免出现数据库不一致等问题。第二种是光电融合路由器的单 SBI 管理方式,该方式假定 IPSDN 控制器是唯一直接与光电融合路由器对接的接口,并由其全权负责所有管理功能的实现。此外,在 IPv6 环境的应用场景下,统一控制器还需要提供切片、确定性等功能的分配服务。2.协议融合在“IP 光”融合架构中,协议驱动的跨层协同是实现光层与 IP 层动态联动的核心机制。通过标准化的协议体系,IP 层不仅能够实时感知光网络状态,还可直接调动底层光资源,构建灵活、智能、自动化的网络控制平面。GMPLS(Generalized Multi-Protocol Label Switching)是在 MPLS的基础上扩展而来,最初设计目的是将 MPLS 的标签机制从电层延伸至光层,标记包括 TDM 时隙、波长、波长组、光纤端口等资源,从而实现业务在多种传输介质之间的统一调度与快速故障恢复。理论上具备跨域、跨层调度能力,是一种典型的光电协同协议。它支持 LMP、RSVP-TE 等多种信令机制,可实现链路资源发现、光层路径计算、保护倒换等功能,曾在早期 IPoDWDM 架构中被多家厂商作为标准方案采用。然而,随着网络规模扩大与业务多样化,GMPLS 逐渐暴露出一系列现实问题:1.协议复杂,配置维护成本高;2.占用大量控制带宽,效率低;3.控制与转发紧耦合,灵活性弱;4.不适配现代 SDN 解耦架构,扩展性差。因此,尽管 GMPLS 在技术设计上具有一定前瞻性,但其实际部署效果未达预期,网络可操作性和运维效率难以满足当前需求,在商用化路径上逐渐式微。其他的典型协议还包括:BGP-LS PCEP:IP 控制器通过 BGP-LS 发布链路状态信息,光控制器响应 PCEP 路由计算请求,实现路径规划与资源动态调度。例如,当 IP 层检测到链路拥塞,可触发 PCEP 请求新增波长以实现流量分担。OpenFlow:Openflow 由原来交换机延伸到光设备,用于部分光设备的精细控制,扩展光转发逻辑能力,具备一定可编程性,但适用范围有限。NETCONF YANG:成为现代网络自动化的主流组合。YANG定义数据模型、NETCONF 实现配置交互,两者结合可支持跨厂商设备的统一配置和状态同步,替代传统 CLI/SNMP,实现从“人工脚本”向“结构化交互”的转型。如今,业界更多转向以 PCEP BGP-LS、NETCONF YANG 等更轻量、模块化、可编程的协议体系,来实现 IP 与光层的有效联动与自动化编排。3.硬件层融合在底层网络中,报文转发方式历经多个阶段性技术迭代,体现出从光电分离走向光电融合的演进趋势,尤其在硬件层面上,体现为模块形态、接口模式、能效设计与可运维性的持续优化。以下是从硬件层融合角度出发的五个主要发展阶段:(1)IP over WDM(19992009 年)该阶段以 10G 彩光模块 DWDM 盒子为主要技术形态,IP 设备通过标准 300PIN 接口插入 DWDM 彩光模块,实现点对点的 WDM传输,是最早的“IPoDWDM”实践雏形。然而,随着业务流量爆发性增长,该方案逐渐暴露出光层管理能力薄弱、扩展性差等问题,加之 100G OTN 商用后成本优势显现,该方案被逐步淘汰。(2)IP over OTN(20102015 年)即 OTN 设备用作 DCI;具体网络结构是 IP 骨干网 波分 OTN。特点如下:1)丰富的业务开发能力,要求运维人员更专业化,依赖厂商技术支持,技术封闭。2)强大的 OAM 能力,标准不统一,跨网络对接困难更加独立,无用的功能也对 DCI 网络带来了更多的传输运营成本。3)不同颗粒的调度能力,使得业务封装帧结构更为复杂,嵌套字节更多。4)长距离的线路容错能力,使得 FEC 的算法复杂,消耗的开销更大和处理时间更长5)OTN 设备 48V-DC 的供电模式,和大部分数据中心所使用的标准 19 英寸 220V-AD(或者 240V-DC)机柜不同,安装复杂且需要机房电力改造;6)传统 OTN 设备机框大,不适合标准机柜安装,且容量密度不高,后期扩展麻烦且要机柜腾挪或改造新加。7)OTN 扩容周期落后于 ICP 的需求;(3)IP over Disaggregated OTN(2015生命周期不确定)即开放解耦的盒式 OTN 设备用作 DCI。开放解耦 OTN 将传统OTN 设备的光层和电层设备解耦,实现光层平台和光模块的直采,电层平台实现多厂商兼容。设备形态上为 1U-2U 的盒式设备,供电方式更灵活,设备可堆叠,模块化设计,风道符合数据中心的前进风后出风规范。主要针对围绕不需要电交叉的大颗粒传输场景。网络模型由 Yang 模型统一管理,由于仍然有 OTN 技术的保留,管理还是会相对复杂。(4)IP over Disaggregated DWDM(北美 2021)全解耦的 DCI/彩光 SDN,以 IPoDWDM 作为主要载体。DCI 传输网络光层可以是配合 ROADM 南北向接口构成的 SDN 技术,对波道进行任意开通、调度和回收,系统里面多家厂商的电层器件混合使用,甚至 IPoDWDM 光接口和 OTN 光接口混合在同一套光系统上使用的情况,都将成为可能,届时系统扩容、变更等方面的工作效率将大大提升,光电层面也将更方便进行区分,网络逻辑管理更清晰,成本将大大降低。IPoDWDM技术结合了IP网络的灵活性和DWDM的高带宽能力,使得单个光纤能够同时传输多个波长(相干彩光)的光信号,每个波长可以承载不同的数据流。即 IP 设备直插彩光模块形成 DWDM 组网应用,按产品分为交换机插彩光和路由器插彩光两种。彩光光模块直插 IP 设备,加上系统光盒子构成彩光光系统。优点:1)省了一对灰光模块。降低少量成本和两次光电转换的延时。2)彩光模块直插 IP 设备,节省了波分设备的空间和功耗;降低整体功耗和占地面积。3)解耦后的光层面,在建设初期单独投资,不受未来多厂商共用一套光层系统的限制,并且结合光层的北向接口,配合 SDN 技术,进行光层面的波道资源进行方向调度;提升业务灵活性。4)网络设备直接通过数据结构,与 ICP/CSP 自有的网管平台对接,节省管理平台开发投入,同时免去厂商提供的 NMS 软件,提升数据采集效率和网络管理效率。缺点:1)需要路由器/交换机自己构建光系统,设计 OA/合分波等;2)需要很强大的 IP 光协同能力;3)如需小颗粒业务承载或多业务承载则需要开发切片或比特透明传输策略;(5)光电融合确定性(2024 年)随着确定性网络技术的发展,融合以太网的低成本与光层的高性能,光电融合正在进入一个以时延可控、抖动可预测、路径可编排为目标的新时代。在该架构下:1)彩光模块直接插入白盒路由器;2)光与电的功能协同于一个设备中实现;3)支持带宽切片、路径按需调度;4)丢包率低于 10、微秒级抖动控制,传输效率超 90%;在硬件层面,实现了更进一步的光电统一平台。系统具备开源操作系统、SDN 北向控制接口及确定性编排能力,支持国产化、白盒化,适配于未来工业互联网、低时延 AI 集群等场景,代表光电融合从“功能叠加”走向“性能协同”的质变阶段。确定性技术是在以太网的基础上为多种业务提供端到端确定性服务与质量保障的一种新的网络技术,它可以实现路径确定性、资源确定性、时间确定性,尤其在时间确定性技术上,可以实现微秒级别的抖动。光电融合确定性技术融合了光电融合技术与确定性技术的性能优势,在路由器上插入彩光模块,突破传统网络架构中的光电信号分离,高成本、高能耗、低效率等瓶颈,实现丢包率小于十万分之一、微秒级抖动,传输效率大于 90的高质量网络传输能力,同时可以支持带宽分片保障、路径按需调度等功能。光电融合确定性技术由江苏未来网络集团联合紫金山实验室等单位提出,基于白盒设备形态实现操作系统集成,通过统一控制器实现业务统一承载,已在全国多个城市的网络中得到了试验与验证。三、三、光电融合网络技术发展趋势光电融合网络技术发展趋势随着数字经济的蓬勃发展,数据流量呈现指数级增长,对网络带宽、传输效率、智能化管理等方面提出了更高要求。光电融合网络作为支撑未来信息基础设施的核心技术,正朝着高速化、协同化、智能化的方向加速演进。本章将从相干光技术的演进、IP 与光的解耦及融合趋势,以及光电协同的 SDN 控制与 AI 运维三个维度,深入剖析光电融合网络技术的发展脉络与未来走向。3.1 相干光技术演进方向相干光技术演进方向3.1.1 速率演进速率演进相干光技术作为长距离、大容量光传输的核心支撑技术,其演进直接决定了光电融合网络的传输能力上限。在 21 世纪初期,波分复用(WDM)技术和掺铒光纤放大器(EDFA)的广泛应用推动了光通信速率的显著提升,10Gbps 成为主流速率。然而,传统的强度调制/直接检测(IM/DD)技术在长距离传输中面临色散和非线性效应的严重制约,亟须新的解决方案。2010 年前后,随着数字相干技术的引入彻底改变了光通信的面貌。通过偏振复用(PDM)和正交相移键控(QPSK)调制,结合先进的数字信号处理(DSP)算法,实现了100Gbps 的商业化部署,通过 DSP 技术能够有效补偿信道损伤,如色散和偏振模色散,大幅提升了系统的可靠性与传输距离。而目前成熟的商用技术处在 400G 代际,这一代际的技术突破集中体现在调制格式的升级与频谱效率的跃升上。为了在有限的光纤带宽内承载更高速率,400G 系统普遍采用 16 阶正交幅度调制(16QAM),同时激光器的集成化演进成为核心发展方向,例如通过将多个可调谐激光器集成在单一芯片上,实现 C 波段 6 THz 谱宽(C6T)与 L 波段 6THz谱宽(L6T)的连续波长可调,使得单纤传输容量突破 50Tbps,完美适配骨干网和城域网的大容量传输需求。而随着 AI、数据中心的高速发展,数据中心内的互联速率也快速倍增。随着 AI、数据中心的高速发展,数据中心内的互联速率快速倍增,800G 已实现商用,1.6T 也即将投入使用,二者在技术演进上呈现出紧密的承接性,共同推动光通信向更高速率、更宽场景延伸。800G 作为当前数据中心互联的主力,其技术突破聚焦于能耗比与密度提升,采用双偏振正交幅度调制(PDM-64QAM)。未来 1 到 3 年内,相干光信号的波特率将从当前的 120GBaud 左右提高到 200GBaud 甚至 240Gbaud 左右,以支持下一代 1.6Tbit/s 和更高速率的光信号传输。在 1 到 2 年的时间内,200GBaud 技术的相干光会在部分场景应用,满足早期 800G 长距和 1.6T 信号的传输需求。3.1.2 封装技术演进封装技术演进相干光模块的封装技术演进是推动其广泛应用与性能提升的关键因素,这一演进过程紧密围绕小型化、低功耗以及适应不同应用场景需求展开。如今,光模块正朝着更高密度、更低功耗的方向发展,以满足云计算、AI 和大规模数据中心的爆发式需求,同时也面临着散热管理和信号完整性的新挑战。QSFP-DD 相较于 OSFP 有着更紧凑的封装尺寸,但同尺寸下设备可承载更高密度的端口,QSFP-DD 还有利于向下兼容,满足客户平滑升级的需求。但与此同时高密度带来的散热压力和内部芯片封装难度还需全产业链共同努力。随着数据传输速率的不断提高,特别是 400G 及以上高速光通信的需求激增,CPO(Co-Packaged Optics)封装技术逐渐被重视。它通过将光学器件与电子芯片集成在同一封装体内,显著缩短了信号传输的路径,降低了信号损失并提高了带宽,能够满足超高速、高容量网络的需求。此外,CPO 封装还能有效减少功耗,提升系统稳定性,适应数据中心和下一代通信网络对高性能和高密度设备的要求。然而,这种技术也面临着散热管理、制造成本高以及与现有系统兼容等挑战。3.1.3 调制器材料技术演进调制器材料技术演进在相干光模块的技术体系中,光调制器作为核心器件,其材料特性与性能表现直接决定了系统的传输能力与成本结构。当前主流的调制器材料体系在带宽潜力、线性度、功耗及集成化水平上呈现显著分化:磷化铟(InP)凭借优异的高频响应成为长距传输的传统选择,硅基光子依托 CMOS 兼容工艺在低成本集成场景占据优势,而薄膜铌酸锂(TFLN)则通过材料革新实现了高性能与集成化的平衡。这些差异直接映射到相干系统的传输距离(如长距干线与数据中心互联的场景分化)、频谱效率(高阶调制下的线性度需求)及商业化成本(大规模集成带来的单位带宽成本下降),构成了技术路线选择的核心考量维度。在相干光技术的演进脉络中,提升信号波特率与单波传输速率是贯穿始终的核心目标,而调制器的带宽极限正是这一进程的关键约束。当前商用系统的波特率已稳定在 120GBaud 级别,支撑起 800Gbit/s相干信号的传输;行业预测,未来 1-3 年内,波特率将向 200GBaud乃至 240GBaud 突破,为 1.6Tbit/s 及更高速率信号提供底层支撑。从应用节奏看,200GBaud 技术将在 1-2 年内率先在特定场景落地,满足长距 800G 升级与 1.6T 预研的需求,但受限于标准化进程 各标准组织(如 OIF、IEEE)普遍选择跳过 200GBaud 等级,直接推进 240GBaud 的接口规范制定 其供应链成熟度与跨厂商互通性将受到制约,更多作为过渡性技术存在。目前三条主流技术路线的性能边界已逐渐清晰:磷化铟(InP):凭借直接带隙材料的高频特性,其调制带宽可支持至 260GBaud,但受限于材料本身的光学特性,仅能在 C/L 波段工作,难以满足未来多波段复用的需求;硅基光子:依托微环谐振或马赫-曾德尔结构实现调制,但其载流子迁移率限制导致带宽难以突破 200GBaud,且在高阶调制下的线性度不足,更适用于中短距场景;薄膜铌酸锂(TFLN):通过离子切片技术将铌酸锂薄膜与硅基衬底异质集成,既保留了传统铌酸锂的高线性度(支持 DP-64QAM 等高阶调制),又将带宽潜力提升至 300GBaud 以上,且覆盖 EL 多波段,成为支撑长距 800G/1.6T 演进的核心技术选项(如图 3 所示的波段可用性与波特率对比)。图 3.三种材料的光波段频谱可用性与信号波特率对比3.1.4 调制技术演进调制技术演进在现代光通信系统中,调制技术决定了信号的传输效率和质量。随着数据传输速率从 100G 向 400G、800G 乃至 1.6T 演进,各种先进调制格式不断涌现,在频谱效率、抗噪性能和适应性之间寻求最优平衡。QPSK 作为数字相干时代的基石,通过利用四个相位状态(0、90、180、270)在每个符号周期携带 2 比特信息,实现了频谱效率与抗噪声能力的良好折中,因此成为 100G/200G 以及当下长距离 400G 系统的首选调制方式。其核心原理是通过对光载波的相位进行精确控制,配合偏振复用技术使单波长容量翻倍。当需要进一步提升速率时,高阶 QAM 开始发挥关键作用。例如,16-QAM 通过在幅度和相位上组合出 16 个状态(每符号 4 比特),可将频谱效率提高至 QPSK 的两倍,但代价是对光信噪比的要求显著增加。更激进的 64-QAM 则被用于 800G/1.2T 系统,但其对链路线性的苛刻限制使其目前仅适用于短距离场景。为了克服高阶调制的固有缺陷,概率整形(Probabilistic Shaping,PCS)技术应运而生。它通过动态调整不同符号的出现概率,使信号分布更贴合信道特性,从而在相同 OSNR 下提升传输距离或容量。这种“智能压缩”策略尤其适用于跨洋光缆等复杂环境。另一项重要进展是 OFDM(正交频分复用)及其衍生技术(如 FlexGrid)。与传统固定栅格系统不同,OFDM 将信号分割为多个正交子载波,允许灵活分配频谱资源以适应异构业务需求。例如,在城域网中,运营商可通过动态关闭闲置子载波降低功耗;而在骨干网中,则可集中带宽优先保障高优先级流量。伴随着信号速率和带宽的不断扩展,信号调制从单载波向多载波的演进成为 1.6Tbit/s 及以上速率信号着重考虑的方向。目前比较热门的多载波实现方案是通过数字信号处理的方式实现数字子载波(DSC)调制。DSC 技术可以沿用单载波的器件架构,虽然对于器件带宽的要求没有变化,但是可以使用一套收发器件实现多个子载波的调制与解调。数字子载波调制的信号在高速与高带宽场景下,相比单载波在减少均衡增强相位噪声(EEPN)方面有明显优势,可以避免随着波特率提高持续提升对激光器线宽性能的要求。在信号调制中,PCS 技术也将持续应用于未来的相干光通信中。不同的技术方案包括 800G ZR 使用的简单查找表,预计将在1600ZR 中使用的判决树结合查找表,以及私有算法中可能使用的更加复杂、性能更加强大的分布匹配器实现 PCS。PCS 技术在业界已经应用多年,但是直到 800G ZR 开始才逐步定义标准化的 PCS 方案。考虑到互通性的要求,目前纳入标准的 PCS 方案是实现比较简单,性能较低的方案。高性能高灵活度的 PCS 技术仍属于部分芯片厂商的关键技术,作为互通标准公开的可能性较低。3.1.5 纠错编码技术演进纠错编码技术演进在纠错编码方面,早期的光通信系统主要采用 Reed-Solomon(RS)码,RS 码在 10G/40G 时代发挥了重要作用。RS 码通过在数据块中添加校验字节(通常约 7%的开销)来实现错误纠正,但其纠错能力相对有限,只能达到10-12量级的纠后误码率(400ZR标准中要求10-15量级的纠后误码)。随着100G DP-QPSK的出现,硬判决FEC(HD-FEC)以及阶梯码 staircase 成为新的标准(如 ITU-TG.709、G.709.2)。HD-FEC 通过对接收到的二进制信号进行“非黑即白”的判断来纠正错误,虽然提高了纠错能力,但在面对高阶调制带来的复杂噪声环境时仍显不足。真正的转折点出现在软判决 FEC(SD-FEC)技术的应用上。这类算法包括低密度奇偶校验码(LDPC)和 Turbo 码等,它们最大的特点是利用了接收信号的“置信度”信息(即不仅判断 0 或 1,还考虑其可信程度)。通过这种方式,SD-FEC 可以实现超过 11dB 的净编码增益,这相当于将传输距离延长数倍。特别是迭代解码技术的运用,让解码器能够通过多次反馈循环逐步逼近香农理论极限。例如,在400G 系统中,SD-FEC 使得 16QAM 等高阶调制得以实用化,尽管这会带来 15 %的开销,但相比其带来的性能提升而言是值得的代价。随着光通信速率向 800G/1.6T 迈进,开放前向纠错(OFEC)技术逐渐成为研究热点。它的重点在于灵活性和开放性,允许多种不同的纠错算法和结构来适应不同的应用场景。SD-FEC 一般采用软判决技术以提升纠错性能,而 OFEC 的重点则在于提供开放标准,使得不同供应商和设备可以更容易地互操作,并且通过开放的标准和协议优化系统性能。如今 FEC 技术正朝着更加智能化和专业化的方向发展。AI 驱动的自适应 FEC 系统可以实时监测链路质量,动态调整编码策略和开销比例,在保证可靠性的同时最大化有效吞吐量。更具颠覆性的是量子 FEC 的研究,这类算法专门针对量子通信中的特殊噪声特征设计,可能采用全新的拓扑量子码等方案。不过,这些新技术也带来了新的挑战:SD-FEC 的解码复杂度呈指数级增长,需要专用 ASIC 来处理;而自适应 FEC 的系统设计和测试方法也需要重新定义。在纠错编码技术不断演进的同时,反向信道技术作为一种辅助增强手段也日益受到关注。在 ZR 等相干接口的方案中,信号映射的DSP 帧结构会插入预留的符号。目前业界正在讨论利用这些预留符号建立一个信道,将相干光模块接收端的一些关键损伤数据,例如 IQskew,反向传输至发射端,以供发射端进行预补偿等功能。利用 DSP帧传输的信息不受 FEC 保护,因此需要进行多次发送并检验一致性。这个技术暂时被称为反向信道,如果未来进一步扩展预留符号建立信道的功能,很有可能为该信道取一个更加准确严谨的名称。反向信道技术与 FEC 技术形成互补,通过将接收端的实时损伤信息反馈给发射端,使发射端能够提前进行针对性的预补偿,从而减少信号在传输过程中产生的错误,降低了对 FEC 纠错能力的依赖,二者协同作用进一步提升了相干光通信系统的传输性能和可靠性。如何在性能、复杂度和成本之间找到平衡点,将是下一代 FEC 技术发展的关键课题。3.2 光电融合网络的解耦和融合趋势光电融合网络的解耦和融合趋势光电融合网络的核心目标在于打破传统 IP 层与光层之间的“竖井”壁垒,实现资源的高效协同与灵活调度。在这一进程中,“解耦”与“融合”看似矛盾,实则相辅相成:解耦是实现深度融合的基础和前提。解耦的核心在于打破传统封闭、一体化的设备形态和管控体系,为不同层面的技术创新、灵活组网和统一管控创造条件。融合则是在解耦的基础上,通过统一的控制平面(如 SDN)、开放的接口和智能的协同机制,实现 IP 与光资源的全局最优调度和业务端到端敏捷发放。3.2.1 解耦趋势解耦趋势1.波分复用层解耦:传统模式下,WDM 系统通常是“黑盒”式的一体化设备,包含光线路终端、光放大器、色散补偿、ROADM(可重构光分插复用器)、光监控信道等所有功能,由单一厂商提供封闭的软硬件解决方案。波长资源分配、路由和性能监控高度依赖厂商私有系统,这在一定程度上限制了网络的发展。开放光网络技术和模块化技术的发展正深刻改变着这一局面。开放解耦在网络系统和设备硬件方面,呈现出白盒化与模块化的特点,基于模块化能力推动封闭的线路系统开放化,将 WDM 平台分解为标准的、可互操作的“白盒”硬件模块。开放式 ROADM 支持多厂商波长选择开关、光放大器、合分波器等光器件通过标准接口(如 OpenROADM MSA 定义的接口)互联,允许运营商混合搭配不同厂商的最佳光组件。可插拔相干光模块是一项推动波分复用系统解耦的革命性技术,它将传统固定在WDM 板卡上的相干 DSP 和光收发器封装为标准化的可插拔模块(如 400G ZR,ZR ,OpenZR ),这些模块可以插入路由器、交换机或开放式的 WDM 终端设备中,模糊了 IP 设备与光设备在电层处理上的界限。此外,开放光放大器、监控单元提供标准化的管理和控制接口,便于集成到第三方网管或控制器。在控制与管理解耦方面,通过 SDN 控制器和开放 API(如OpenConfig,T-API,OpenROADM Yang Models)实现对开放式线路系统的统一管控。控制器负责波长的路径计算、资源分配、性能监控和故障管理,不再依赖单一厂商的网管系统。这种解耦模式带来了诸多价值,不仅打破了厂商锁定,降低了采购成本,增加了运营商的议价能力;还能实现最佳组件组合,让运营商在不同功能模块上选择性能最优或成本最优的供应商;同时加速了技术创新,模块化开放架构便于新功能、新技术(如新波段、新调制格式)快速引入;简化了运维工作,通过统一 SDN 控制器管理多厂商环境,也为跨地域、跨厂商的光波长资源池化和灵活调度奠定了基础。2.客户侧接入层(OTN 设备)解耦:传统的 OTN 设备通常是软硬件紧耦合的封闭系统,提供从客户业务接入(如 Ethernet,SDH,FC)、业务汇聚、ODUk/OTN 电层交叉、到线路侧 WDM 接口的全套功能,设备形态和功能由单一厂商定义。如今,解耦趋势在客户侧接入层(OTN 设备)愈发明显。在硬件形态解耦上,出现了基于通用硬件(如 x86/ARM CPU、NPU、可编程交换芯片)的“白盒”平台,运行独立的网络操作系统软件(NOS),且支持安装不同厂商的 NOS。同时,分解式设备架构将传统 OTN 设备的接入、汇聚功能与核心电交叉功能分离,边缘接入设备部署在靠近用户侧(如基站、企业接入点、数据中心入口),专注于低速率、多类型业务的接入、适配和简单的本地交换、汇聚,形态更小巧、低功耗;核心电交叉设备部署在核心、汇聚节点,专注于大容量的 ODUk/OTUCn 电层交叉连接,实现核心交叉资源的集中化和池化;也有部分方案弱化或取消了传统的 OTN 电交叉硬件。软件解耦方面,OTN NOS 与硬件解耦,使得 OTN 控制和管理软件可在不同厂商的“白盒”硬件上运行。并且通过 SDN 控制器和开放 API 实现 OTN 业务的端到端配置、带宽调整、保护倒换等,替代或补充传统的网元管理系统,同时采用标准化的数据模型进行配置和状态管理。客户侧接入层解耦的价值显著,实现了灵活部署,边缘接入设备轻量化、低功耗,适合广泛分布式部署,核心交叉设备集中化,提高了资源利用率;降低了成本,边缘设备成本显著降低,“白盒”模式也降低了硬件成本;提升了业务敏捷性,SDN 控制实现 OTN 专线(如 OSU 灵活管道)业务的快速开通和调整;还促进了开放生态的形成,推动多厂商 OTN NOS 和硬件供应商的竞争与合作。3.线路侧传输层(Line-Side Transmission)解耦:传统模式下,线路侧传输(主要指长距离、大容量的光纤传输)通常与 WDM 系统紧密绑定,传输性能(如 OSNR、非线性容限、传输距离)高度依赖于 WDM 设备厂商专有的光器件、FEC 算法和系统设计,不同厂商设备之间的线路侧互操作性差。目前,线路侧传输层解耦趋势主要体现在开放光接口标准和光层参数开放与协同上。在开放光接口标准方面,400G/800G ZR,ZR ,OpenZR 等可插拔相干模块标准定义了模块的尺寸、功耗、光接口参数(如发射功率、接收灵敏度)、调制格式、FEC 等,使得符合标准的模块可以插入不同厂商的路由器、交换机或开放式 WDM 终端设备中,并在标准的光纤链路(可能包含第三方的 EDFA、DCM 等)上进行互操作,这是线路侧解耦最核心的体现。同时,推动使用标准化的 FEC 算法(如 OpenZR 采用的 OFEC),实现不同厂商设备互联,并降低互通的性能损失。在光层参数开放与协同方面,通过 SDN 控制器和开放 API,获取并协调不同厂商设备的光层性能参数(如 OSNR、光功率、Q 因子),实现端到端光路径的优化和保障,同时推动光性能监测信息的标准化和开放,便于跨域、跨厂商的性能分析和故障定位。线路侧传输层解耦的价值重大,实现了真正的多厂商互操作,路由器可直接通过标准光模块连接到开放光线路系统,实现“IP overOpen Line”,极大简化网络架构;降低了长距传输成本,利用标准化的低成本、低功耗可插拔模块替代传统昂贵的专用长距板卡和专用WDM 终端;提升了组网灵活性,在网络边缘或城域范围内,无需部署专用 WDM 设备即可实现中短距离的波长级互联(DCI 是典型应用);也推动了技术创新,模块厂商专注于提升模块性能和降低成本,光系统厂商专注于优化线路设计和光层管理。3.2.2 融合趋势融合趋势在网络发展历程中,IP 层负责数据的寻址与转发,光层则承担大容量、长距离的传输任务。早期,IP 设备与光设备相互独立,各自为政,网络部署与运维极为复杂。随着数据流量的迅猛增长,传统模式弊端尽显,IP 与光的融合需求愈发迫切。与此同时,技术的进步也为二者的深度融合创造了条件。从融合的意义来看,一方面,减少网络转接层级效果显著。以往,IP 数据在光网络中传输,需多次经过光电转换与协议适配,这不仅耗费时间,还降低了传输效率。实现融合后,转接次数大幅减少,数据传输更为顺畅。例如,在大型数据中心互联场景中,传统方式可能涉及 3-5 次转接,融合后可减少至 1-2 次。另一方面,建维成本大幅降低。融合使得设备数量减少,空间占用和能源消耗随之降低。据相关统计,采用融合架构后,网络建设成本可降低 20%-30%,运维成本降低 15%-25%。再者,承载效率得以提升,网络资源能够得到更合理地调配与利用,有效避免了资源闲置或过度紧张的情况。集成电路能力的提升是关键支撑。如今,芯片制程不断缩小,从早期的微米级发展到如今的纳米级,这使得芯片的处理能力和集成度大幅提高,能够更好地满足 IP 与光融合设备对高性能计算的需求。硅光及光电合封技术也已走向成熟。硅光技术将光器件与硅基芯片集成,降低了成本,提高了集成度。光电合封技术则将光模块与电芯片封装在一起,缩短了信号传输距离,减少了信号损耗。从管控层面架构上看,过去,IP 设备由一套管控系统管理,光层设备又由另一套系统管理,两者之间缺乏有效的沟通与协调。当网络出现故障时,定位和解决问题往往耗时费力。如今,通过统一管控平台,能够实时掌握 IP 层与光层设备的运行状态。例如,当光层链路出现异常时,管控平台可立即通知 IP 层设备调整路由,实现业务的快速恢复,确保业务连续性。在网络层面融合上,业务接口参数标准化,使得不同设备之间的对接更加顺畅。以往,不同厂家的 IP 设备与光设备接口参数各异,对接时需要大量的适配工作。如今,统一的接口参数标准出台,大大提高了设备的兼容性。标准化互通光模块及光调度器件的采用,使得网络中的光信号传输更加稳定、高效,提升了网络的整体性能。3.3 光电协同的光电协同的 SDN 控制与控制与 AI 运维运维在传统传输网络中,IP 层与传输设备的运维分离及资源、控制平面不协同的问题突出,为此,光电协同的 SDN 控制器通过“完全集中管控”和“集中式管控 分层代理”两种架构实现跨层资源统筹调度,且这两种方式已在海内外得到广泛试点与应用;同时,面对 5G、云计算带来的网络业务激增及光电融合运维的复杂性,AI技术推动光电协同运维向智能自治升级,形成了包括智能知识引擎、业务智能下发、智能运维及数据侦察在内的四大发展方向。3.3.1 光电协同的光电协同的 SDN 控制控制在传统的传输网络架构中,IP 层运维和传输设备运维通常由两个团队使用两套运维系统独立运维。并且在大型复杂 MESH 组网中,由于 IP 层路由资源和传输路由资源互不拉通,并且传统 IP 与光网络的控制平面相互独立,两者难以实现协同决策。通过光电协同的SDN 控制器更智能的协同机制实现整体效能最大化,解决跨层资源的统筹调度问题。光电协同的 SDN 控制器架构如图 4 所示:图 4.光电协同的 SDN 控制器架构(1)应用层:应用层主要包括第三方应用、运营商自身的BSS/OSS 系统,以及网络与业务规划工具。(2)网络控制管理层:网络控制管理层主要由超级控制器 IP 光统一编排融合调度层,IP 层域控制器和光层控制器三个组件组成,支持跨层网络发现、拓扑收集、业务发放、网络运维和策略管理等功能。网络控制管理层北向通过 API 接口对接应用层。IMT-2020 推进组在5G 承载网络架构和技术方案中推荐采用基于 YANG 的数据模型,定义统一开放的基于 Restful 协议的承载网北向接口,实现网络的开放和可编程能力。网络控制管理层南向支持感知网络拓扑的实时变化,基于网络实时拓扑计算业务转发路径,实现对 IP 网络和传送网络的实时智能控制。NOXOnix、Floodlight 等都是基于 OpenFlow 控制协议的开源控制器。作为一个开放的协议,OpenFlow 突破了传统网络设备厂商各自为政形成的设备能力接口壁垒。(3)网络层:网络层具体可以分为两个子网络:IP 子网络和光传送子网络。IP 子网络主要由路由器组成,承担当前业务的承载功能。光传送子网络主要由 OA、ROADM、基础光传输组成,具备基本的传输能力 OTN 设备等组成,网络设备与网络管理系统通过Netconf/Telemetry/PCEP/BGP-LS 等交互。3.3.2AI 运维运维5G、云计算等技术推动网络业务激增,光层(大容量传输)与电层(灵活调度)融合成主流架构,但跨层协同复杂、故障隐蔽,传统分域运维难以应对。面对光电混合场景海量数据,存在响应慢、定位不准、调度低效等问题,难以满足业务实时性需求。同时,AI 技术的成熟为突破这些瓶颈提供了可能。大模型的自然语言理解、跨域知识关联能力,以及机器学习的异常检测、自主决策能力,与光电融合网络的运维需求高度契合,推动运维模式从被动响应向主动预防、从人工操作向智能自治升级,最终催生了光电协同 AI 运维的发展。具体体现为以下四大方向:1.光电协同智能知识引擎:在光电协同的复杂运维场景中,网络架构融合了光传输与电信号处理的双重特性,运维难度显著提升。智能知识引擎作为光电协同运维体系的核心支撑,如同一位深耕光电领域的资深专家,能够提供精准适配光电混合环境的秒级响应咨询服务,全方位助力运维效率提升。其核心优势体现在以下方面:(1)光电场景的快速智能交互:支持自然语言多轮对话,更能精准捕捉光电运维中的专业术语与场景化需求。针对光电协同运维中“光层故障可能引发电层连锁反应”的紧急性,引擎优化了问题解析逻辑,目前可在毫秒级内完成“光衰耗参数电信号误码率关联设备告警”的跨层知识检索,结合实时运维数据生成解决方案,实现从问题提交到答案输出的秒级响应,为快速恢复光电链路通畅争取宝贵时间。(2)覆盖光电全链路的专业知识库:依托横跨光电领域的多源权威数据构建核心能力:涵盖光传输设备(如 OTN、EDFA)与网络设备(路由器、交换机)的厂商技术手册、光电协同协议标准;整合运维专家针对光电接口兼容性、光信号劣化对电性能影响等特殊场景的经验总结;纳入企业内部光电混合组网的历史故障案例、跨层联动运维工单等独家数据;通过实时同步行业最新光电协同技术白皮书、权威论坛的疑难问题解决方案,经严格清洗标注后动态更新,确保解答既专业全面,又贴合实际运维场景。2.光电协同业务智能下发:在光电融合网络中,业务智能下发功能以 AI 算法为核心,构建从业务意图解析到跨层资源调度的全自动化流程,实现光层与电层业务的无缝协同部署。面对多样化的业务需求,系统首先通过自然语言处理技术解析用户意图,将“低时延传输”“高可靠带宽”等抽象需求转化为光层波长资源、电层路由协议等具体技术参数。在路径规划环节,智能算法会同步分析光传输链路的衰减特性与电层网络的拓扑结构,生成跨光电层的最优转发路径。通过融合光模块性能数据与交换机端口状态,系统能精准避开光衰超标路段与电层拥塞节点。借助“大模型 智能体”的技术架构,业务智能发放功能打破了光层与电层的技术壁垒,实现了跨厂商设备的协同调度与资源的精准预留、动态调整,将原本需要人工耗时数天的复杂业务部署流程缩短至分钟级,大幅提升了光电协同网络的运维效率与业务可靠性。3.光电协同智能运维:光电协同的 AI 智能运维中,智能业务检查通过同步采集光层与电层全链路数据,借助 AI 模型实现跨域异常检测、趋势预测与根因分析,取代传统人工决策模式;智能资源调度则基于光层与电层实时资源状态,由 AI 模型动态优化分配策略,通过双向协同调度机制提升整体网络资源利用率。(1)智能业务检查:通过同步收集光层(光功率、波长衰减、色散值等)与电层(带宽利用率、数据包转发效率、协议状态等)的全链路数据(日志、指标、traces 等),利用 AI 模型进行跨域异常检测、趋势预测与根因分析,替代传统依赖人工经验的决策模式。(2)智能资源调度:基于光层与电层的实时资源状态(如光层空闲波长资源、电层服务器算力),AI 模型可动态优化资源分配策略。例如,当电层某区域带宽需求激增时,系统自动调度空闲光波长建立高速通道,实现电层业务向光层的负载分流;反之,当光层某段链路负载过高时,通过电层的多路径路由技术均衡流量,避免光层单点压力过大。这种双向协同调度机制,能充分发挥光层大容量、低时延与电层灵活调度的优势,提升整体网络资源利用率。4.光电协同数据侦察:在复杂的光电协同网络运维场景中,数据侦察能力是保障网络稳定运行的核心驱动力,通过打通光层与电层的数据壁垒,实现对网络全域的精准洞察与智能把控。(1)网络数据洞察:运维人员只需用自然语言描述对网络数据的查询需求,大模型就能自动将其转化为精准的 SQL 语句,快速从海量的光层与电层融合数据中提取关键信息 既包括光传输设备的波长占用率、光放大器增益、光纤损耗等光层运行数据,也涵盖路由器路由表、交换机端口流量、服务器 CPU 利用率等电层设备日志与性能指标。这种全域数据查询能力,无需运维人员手动区分光/电数据来源,大幅降低跨域数据洞察的门槛。(2)业务数据关联侦察:基于 Text2SQL 功能深化网络与业务的联动,尤其聚焦光电协同对业务的支撑逻辑。例如,当查询“某视频业务卡顿是否与光层相关”时,系统会自动关联业务服务器的电层响应时延数据、承载业务的光链路信噪比数据及历史业务流量与光波长带宽的匹配记录,通过多维度数据交叉分析,定位卡顿根源是光层信号劣化还是电层服务器处理瓶颈。此外,还能实时挖掘业务高峰期的光/电资源消耗特征(如高清视频业务对特定波长带宽的占用规律),为资源调度提供数据依据。(3)异常数据溯源侦察:针对光电协同场景中跨域异常的隐蔽性,系统具备全链路数据溯源能力。当发现电层业务丢包时,会自动触发光层数据回溯,检查对应时间段内的光信号误码率、光路切换记录等;若光层某段光纤损耗突增,则同步关联电层该链路承载的业务类型与受影响范围。通过构建“光层物理特性-电层协议交互-业务表现”的溯源链条,实现异常数据的精准定位。四、四、光电融合网络技术相关标准光电融合网络技术相关标准4.1 相关国际标准及进展相关国际标准及进展4.1.1 相关国际标准及现状相关国际标准及现状光电融合网络作为下一代通信基础设施的核心架构,其标准化体系呈现出高度复杂的多层级结构,涵盖光层传输、业务接口适配、控制面调度、设备模块集成等多个技术维度。这一体系不仅需要解决光信号(如波分复用 WDM、光子集成电路 PIC)与电信号(如以太网、无线协议)的异构兼容问题,还需协调不同技术层级间的协同优化,以实现带宽、时延、能耗等关键性能指标的全局最优。在此背景下,国际与国内标准组织基于各自的职责分工和技术优势,形成了互补性与协同性并存的标准制定格局。标准组织主要职责主要职责标准特点标准特点标准标准层级层级参与参与主体主体示例标示例标准准与其他标准协同与其他标准协同关系关系IETF定义互联网协议及网络控制体系,如IP、MPLS、ACTN、GMPLS 等控制面、路由、抽象网络层、TE机制软件/协议层网络工程师、厂商RFC8453、RFC4206与ONF TAPI接口模型深度配合;ACTN为ITU-T、OpenROADM提供路径抽象基础ONF推进 SDN、开源网络控制架构,如TAPI、OpenFlow控制接口建模(YANG)、开放 API软件接口层云厂商、电信运营商、控制器厂商TAPIv2.4、OpenFlowTAPI可 作 为IETF ACTN的南向接口;适配OpenROADM/YANG 控制模型OIF制定相干光模块和接口标准(ZR/ZR /CEI)硬件接口、电口/光口、模块封装规范硬件/模块层芯片厂、模块商、设备商400ZR,800ZR,CEI-112GOIF 接口标准被IEEE 和ITU-T(如 FlexO)采纳;OpenZR 直接继承 OIF 接口规范IEEE标准化以太网等广义通信物理层/链路层协议LAN/WAN 接口、电气层/物理层规范接口/传输协议层学术界、芯片商、设备商802.3 系列(如802.3dj)参考 OIF 接口标准(如 400ZR)封装为以太网接口;与 FlexO 协同实现兼容ITU-T国际电信标准制定机构,统筹光网系统、OTN、DWDM 等通信系统结构、光层协议、互通格式网络系统层国家成员、电信运营商G.709(OTN)G.698.2(DWDM)吸收 OIF 接口规 范 与 调 制/FEC;G.709FlexO 与IEEE接口标准衔接;ACTN 提供协同机制OpenROADMROADM设备标准接口、OFEC 编码SDN ROADM 网络接口标准化光层设备接口层美 国电 信运 营商(如OpenROADMMSA6.0、控 制 接 口 与ONF TAPI、IETFACTN架 构 兼容;光口参数参AT&T)、设备商OpenROADMYANGmodels考ITU-T与OIF 标准OpenZR MSA综 合 OIF 和OpenROADM 的 ZR 规范光模块互操作标准光模块/接口协同层相 干模 块厂商、系 统商、电信 运营商OpenZR MSAv3.0与 OIF 完全接口兼容,光参数继承OpenROADM,业 务 映 射 参 考ITU-T FlexO以下表格梳理了光电融合领域具有代表性的接口标准、控制架构标准与模块互通标准,涵盖了当前主流组织发布的现行标准与正在制定的重要规范,便于全面掌握光电融合网络标准体系的现状与发展路径。标准名称标准名称发布组发布组织织主要内容主要内容当前状态当前状态G.709/G.709.x 系列ITU-TFlexO 帧结构、OTN 帧格式与业务映射现行中,G.709.b1t 修订中(支持超 1T)G.698.2ITU-T相干 DWDM 系统接口,支持 C L 波段、多跨段应用重启修订,预计 2026 年前完成IEEE 802.3cw/802.3djIEEE400ZR/800G/1.6T 以太网接口标准dj 进入 D2.0 草案,预计2026 年发布400ZR/800ZR/1.6TZROIF标准化相干光模块与接口(80120km DCI场景)400ZR 已定稿,800ZR 已完成,1.6T 制定中TAPI v2.4ONF光网络拓扑、连接、路径计算 API 接口,YANG 建模最新稳定版,广泛用于SDN 控制器RFC8453IETF抽象网络控制架构,实现正 式 标 准,广 泛 与(ACTN)多域 TE 网络的路径编排与协调TAPI/SDN控制器协同使用OpenROADMMSA v6.0多 供 应商联盟ROADM设备开放接口标准、OFEC/FlexO 光信号参数定义现行版本,计划支持 C L波段扩展OpenZR MSA v3.0MSA 联盟相干光模块互通标准,兼容OIF电 接 口、OpenROADM 光参数多厂商支持,完成 400G互操作性测试在光电融合网络标准体系的构建过程中,国内厂商正日益成为国际与国内标准制定的重要参与者和推动力量。光迅科技作为OpenZR MSA 的创始成员之一,积极参与了 400G 相干模块互通性标准的制定与测试,并在 OIF 中深度参与相干光模块关键器件(如 COSA、ICR、CDM)规范的讨论,同时也是国内 CCSA 模块接口标准的重要起草单位,致力于推动模块国产化与系统解耦标准的落地。华为则长期主导 ITU-T G.709 系列和 G.698.2 的修订工作,在 OIF 的 1.6T ZR/ZR 标准项目中提出关键技术路线建议,并在 OpenROADM 标准体系中推动 FlexO 和 C L 波段等能力的引入,其标准立场强调系统、模块与控制器的深度协同和性能优化。烽火通信在 ITU-T 最近的超 1TOTN 标准讨论中积极发挥作用,为下一代 OTN 协议框架制定打下基础,同时也聚焦于超长距 WDM 系统标准的制定与应用验证,在 OIF和国内标准中积极推动 ZR 接口在接入与城域网络中的轻量化部署,强调模块与系统间的配置灵活性与 FEC 适配能力。800G 以太网中长距标准主要由 IEEE 802.3 和 OIF 制定。面向 20km40km 城域内智算互联场景,IEEE802.3dj 制定了 800GE ER1-20(20km)和 800GE ER1(40km)标准。其中 800G 以太网 20km 标准立项由中国移动专家在IEEE 802.3 工作组牵头完成,是中国公司主导在 IEEE 的首个以太网基础标准立项;同时主导 20km 和 40km 标准技术框架被工作组采纳。OIF 面向 40km120km 区域城市群互联场景,制定了 800ZR 标准并已于 2024 年底完成发布。IEEE802.3 800GE ER1-20、ER1 标准与 OIF800ZR 标准采用相同技术路线,实现了 800G 以太网 20120km 技术标准路线统一。4.1.2 相关国际相关国际标准体系标准体系的未来演进的未来演进当前,面向光电融合网络演进的新一代标准体系正在国际范围内持续完善与前瞻布局,覆盖从超高速接口、频谱拓展,到智能控制与新型光纤等多个关键方向。超 1T 接口方面,ITU-T 正在修订 G.709.b1t 标准,拟支持 FlexO结构下的 1.6T 接口,而 OIF 推进中的 1.6T ZR/ZR /CR 系列则面向骨干与 DCI 传输中的轻量化相干需求,并支持 C L 波段扩展;IEEE则通过 802.3dj 同步推动基于IMDD与相干的800G/1.6T以太网接口标准。与此同时,频谱层面也在积极扩展,ITU-T G.698.2 正引入 C L各 4.8THz 频段甚至 C L 各 6THz 频段适配相干 DWDM 系统,OpenROADM 也计划在新版本中支持更广频谱与 AI 链路评估模块,CCSA 则在同步研究 S C L 三波段方案以支撑 1.6T 及以上的容量演进。器件层面,光电合封(CPO)相关标准也加速推进,CCSAWG4正在制定外置激光器模块标准,IPEC 则组织多厂商联合制定器件级可靠性测试规范,而 OIF 与 COBO 在国际上牵头的 CPO 接口规范也为电光共封装的未来演进奠定基础。在智能控制方面,ITU-T 的FG-AI4NDN 与 ETSI 的 ENI 提出了面向未来网络的 AI 控制模型,有望影响光层 FEC 优化、自愈调度等标准设计;CCSA 也已启动 AI 增强型 FEC 算法研究课题,探索 AI 与传输物理层的融合路径。同时,统一调度与开放控制接口标准也在加强互通与兼容性,如 IETF TEAS工作组扩展了 ACTN 与 Segment Routing/切片模型的集成机制,ONF的 TAPI 与 OpenConfig 的 YANG 建模也正在向光网络多厂商可编排管控能力演进。围绕未来基础设施的标准创新也同步展开,ITU-T 与 CCSA 相继启动空芯光纤标准预研,并关注空分复用(SDM)技术在多芯、多模光纤方向的接口定义,未来将重构当前 WDM 系统的容量极限与拓扑弹性。整体来看,光电融合相关国际标准正在迈入“接口高速化、频谱多维化、控制智能化、架构异构化”的新阶段。4.2 相关国内标准及进展相关国内标准及进展国内光电融合网络标准体系正逐步完善,重点围绕高速 DWDM系统、相干光模块、光电合封器件以及基于 SDN 的控制接口等核心领域开展标准化工作。中国通信标准化协会 TC6 下属的 WG1 和 WG4工作组相继发布YD/T 4298-2023 YD/T 4299-2023等关键标准,推动 WDM 系统的开放解耦与控制器层间接口统一,同时在 800G 及以上高速系统、TAP-PD 等关键器件、CPO 外置光源模块等方向加快标准制定进程。这些标准为构建可编程、可演进、国产化可控的光电融合网络奠定了统一规范基础。在硬件接口层面,CCSA WG4 聚焦高性能相干光模块及 CPO(Co-Packaged Optics)器件接口标准,推动国内光模块国产化和模组解耦。当前,CCSA 已发布多项模块接口规范,涵盖 400G 及以上速率,支持多波段、多跨段应用,并同步制定外置激光器及高速互连接口的可靠性测试标准。网络控制与管理层面,CCSA 积极对接国际 SDN 与网络控制标准(如 IETF ACTN、ONF TAPI),推动基于 YANG 模型的统一调度接口标准化,支持多域多层次的光电融合网络资源协调与智能调度。同时,面向 AI 驱动的网络运维,CCSA 启动 AI 增强型 FEC 算法及自愈机制标准的预研,促进智能控制能力在国产设备中的应用。当前的主要标准和状态如下表:标准名称标准名称发布组织发布组织主要内容主要内容当前状态当前状态YD/T4298-2023开放与解耦的波分复用(WDM)系统技术要求中国通信标准化协会(CCSA)TC6WG4明确 WDM 系统中各层级接口(如模块、子架、系统)间的解耦要求,支持多厂商设备互操作已发布,面向运营商部署实践广泛采纳YD/T4299-2023基于流量工程网络抽象与控制(ACTN)的软件定 义 光 传 送 网(SDOTN)控制器层间接口要求中国通信标准化协会(CCSA)TC6WG4基于 IETF ACTN架 构,定 义SD-OTN 控 制 器之间的标准化南北向接口,支持跨域协同调度已发布,部分系统厂商已开始对接实施N400G 光波分复用系统技术中国通信标准化协会(CCSA)TC6针 对 超400GDWDM 系统设计草案完成要求WG1规范、传输性能指标与信号质量要求 城 域N 800Gbit/sWDM系统技术要求中国通信标准化协会(CCSA)TC6WG1面向 800G 及以上容 量 城 域 WDM系统的结构设计、接口协议及调制格式适配规范起草阶段,重点支持 C L 波段应用场景 WDM/TAP-PD光电混合光组件技术规范中国通信标准化协会(CCSA)TC6WG4规定 WDM 系统中用于相干检测的 TAP-PD 器 件的结构、参数及测试要求标准草案,计划纳入相干模块关键器件规范系列光电合封用外置光源模块技术要求中国通信标准化协会(CCSA)TC6WG4面向 CPO 架构中的外置激光器模块(ELS),规范其接口、尺寸、电光特性与可靠性测试已完成行业征求意见稿路由器用超长距(ZR/ZR )彩光接口直连场景的管控技术要求中国通信标准化协会(CCSA)TC3WG2规定了路由器利用 ZR、ZR 彩光接口进行长距离直连场景下对彩光接口进行配置与 管 理 及 其YANG 模型技术要求,包括 ZR、ZR 彩光接口配置 模 型 和 ZR、ZR 彩光接口查询模型。已完成行业征求意见稿我国光电融合网络标准正从系统化布局走向技术深耕,展现出鲜明的差异化优势与前瞻引领能力。在 128GBd 以上 QPSK 长距相干传输标准方面率先突破,建立了国际先发优势;800G/1.6T 高速光通信则成为我国与 ITU-T、OIF 等国际组织竞争与合作的前沿焦点。CCSATC6 WG4 近两年密集推进 800G 强度调制与相位调制两大技术路径标准制定,基本完成系列标准体系建设,并同步启动 1.6T 光模块、C L 波段一体化器件等关键方向的标准预研。新型调制格式、OTN映射优化、频谱拓展、AI 增强型 FEC 等关键技术群,正构成我国光电融合网络标准演进的核心攻关领域,为构建高带宽、自主可控、智能协同的新型通信基础设施提供坚实支撑。五、五、光电融合网络相关产品与解决方案光电融合网络相关产品与解决方案5.1 ZRx 相干光模块相干光模块相干光模块(Coherent Optical Module)通常用于 100G 及以上远距离(DCI/长距/城域/骨干)通信场景,其核心构成包括:模块组成部分模块组成部分主要功能说明主要功能说明相干 DSP 芯片执行高速调制/解调、前向纠错(FEC)、功率均衡、PM-QPSK/16QAM 等算法。相干光收发器件包括 ICR(集成相干接收器)与 CDM(相干驱动调制器),以及集成相干光收发器(COSA/TROSA),完成光信号收发。ICR集成偏振分束、光电探测、偏振控制等组件。可以实现双偏振相干光信号的內差探测。CDM集成驱动放大器,MZM 相位调制器,SOA 光放大器等组件。可以实现高速信号的相位调制。ITLA(可调谐激光器组件)基于外腔激光器(ECL)或者分布布拉格反馈(DBR)结构的窄线宽可调谐激光器,可以覆盖 C 波段 6THz 和 L波段 6THz 的调谐范围。光引擎封装结构模块化封装、热管理、低功耗设计等(如 CFP2-DCO、QSFP-DD、OSFP)。控制与接口电路包括 I2C、SPI、MDIO 接口,实现与系统主控交互。自从 2011 年首个 MSA(Multi-SourceAgreement)标准接口 100G光模块发布,相干模块至今已发展了四代,具体如下:代代际际最大速率最大速率调制方式调制方式波特率波特率速率速率适用场景适用场景第一代100G100GQPSK34GBd不可调调制模式只有 100GQPSK 一种,适用于各种距离传输,如长途干线、城域网等场景。第二代200G200GPM-16QAM/100GQPSK45GBd可调调制模式主要为 200GPM-16QAM,适用于短距离传输,如数据中心互联、城域网等场景。第三代400G/600G200GQPSK/400GPM-16QAM64GBd可调调制模式主要为 200GQPSK,适用于长距离传输,如长途干线、海底光缆等场景。第四代800G/1.2T400GQPSK/400GPS-16QAM/800GPM-16QAM96GBd/130GBd可调调制模式主要为 400GQPSK,适用于长距离、大容量传输场景,如长途干线;此外,800G速率主要用于超大型数据中心互联以及有高带宽需求的场景。当前全球主要光模块厂商在 ZR/ZR 及相干模块领域布局广泛,封装类型与 DSP 选型呈现多样化趋势,体现出不同厂商在技术能力、市场定位与演进策略上的差异。从封装角度来看,QSFP-DD 和 OSFP成为主流趋势,其中 QSFP-DD 在端口密度和兼容性方面有优势,而OSFP 则在散热性能方面具备优势。美国厂商如 Acacia(Cisco)、Ciena、Infinera 多采用自研或高性能商用 DSP(如 Jannu、WL5/WL6 系列),主攻 800G 及更高性能场景;而中国厂商如华为海思、光迅科技、新易盛则在自研 DSP 与模块封装上形成多点突破。整体来看,美系厂商聚焦高性能高可靠应用场景,自研 DSP 领先;中系厂商则在封装灵活性与速率覆盖广度方面持续发力,正加速向核心技术自研与高速率领域迈进,全球相干模块市场格局正在逐步多元化与本地化。主流相干光模块厂家对比厂商厂商国家国家/地区地区封装类型封装类型DSP 类型类型典型速率典型速率Acacia(Cisco)美国CFP2-DCO,QSFP-DDJannu,Denali100G/400G/800GInfinera美国Custom module自研 DSP800GCiena美国QSFP-DD,CFP2-DCOWL5Nano/Extreme800G烽火中国CFP2-DCO/QSFP-DD/OSFP自研400G/800G光迅科技中国CFP2-DCO/OSFP/QSFP-DDMarvell/自研400G/800G新易盛中国QSFP-DD,OSFPMarvell400G思特威美国/中国CFP2/OSFP第三方100G/400GLumentum美国CFP2-DCO,QSFP-DD与 Acacia 合作100G/400G目前,相干光模块的研发正处于 800G/1.2T 技术演进期,这一阶段标志着高速率、低功耗、集成化成为研发主旋律。800G 相干模块已逐步商用化,适用于数据中心互联(DCI)、骨干传输与算力网络等场景;1.2T 模块则作为下一代高阶产品,正在进行技术验证与初步部署,主要依赖更高符号率(如 140GBd 以上)、更复杂的调制技术(如 64QAM)和先进的 DSP 能力以提升频谱效率。向下一步发展,1.6T 相干光模块被视为未来核心目标,将采用更高速 DAC/ADC 器件、更高性能的硅光平台、更低功耗的 7nm 及以下 DSP 工艺,并有望实现 C L 波段覆盖、AI 增强 FEC 等关键技术集成。与此同时,封装形态也将进一步演进,以支撑 1.6T 在超长距传输和超大带宽集群互联中的广泛应用。QSFP-DD 和 OSFP 作为面向未来演进的两种主流封装,在结构设计、功能支持及部署场景方面均展现出各自的优势与局限。QSFP-DD(Quad Small Form Factor Pluggable-Double Density)封装是一种高密度光模块设计,其主要优势在于能在传统 QSFP 和QSFP28 的面板尺寸基础上增加更多电气通道,从而支持 400G 及更高速率的传输。这种紧凑设计不仅提供了较高的端口密度,非常适合数据中心对空间高效利用的需求,还确保了较强的向下兼容性,便于企业在进行网络升级时无需大规模更换现有硬件。随着散热技术的完善,QSFP-DD 封装能够支持 400G ZR 模块的稳定运行,已成为数据中心等场景的主流选择。尽管如此,QSFP-DD 的封装体积较小,导致其在 800G 及以上速率的模块中散热能力受限,需要更好的散热设计或其他辅助散热方案。此外,较为紧凑的内部空间也限制了高级功能模块(如复杂 DSP 和 FEC)的集成,未来在更高速率的演进中需要集成度更高的方案。OSFP(Octal Small Form Factor Pluggable)封装相比 QSFP-DD体积更大,专为支持 800G 及以上速率的模块开发,注重高带宽、高功耗环境下的热管理与功能集成能力。OSFP 设计的优势在于其优秀的散热性能,由于提供了更大的物理空间,能够容纳更大面积的散热片或采用更复杂的热管理结构,从而有效降低模块的温度,保障其在高负载下的长期稳定运行。此外,OSFP 还具备很强的功能扩展潜力,较大的内部空间能够支持更复杂的 DSP 芯片、CDM 结构以及 FEC模块,为未来更高速率模块的升级提供硬件基础。然而,OSFP 也有一些劣势,主要体现在其较低的端口密度,因封装尺寸较大,每个面板支持的模块数量较少,降低了设备的端口总容量。此外,更大的封装尺寸也意味着其材料和生产成本较高,可能导致在大规模部署时面临更高的成本压力。行业普遍认为,QSFP-DD 与 OSFP 将在未来 35 年内长期共存,两种封装将作为互补技术路线并行发展,共同支撑光电融合网络的持续升级与演进。5.2 光电融合网络设备光电融合网络设备光电融合网络设备是指将 IP(Internet Protocol)层和光层(通常是 DWDM,即密集波分复用技术)深度集成或协同工作的设备。这类设备通过融合 IP 和光层的功能,优化了网络架构,使得网络传输更加高效、灵活,并能够支持大容量的数据流动。传统的通信网络通常将 IP 和光层分开,各自负责不同的传输任务,而光电融合设备则实现了两者的深度耦合,能够提供高带宽、低延迟、低成本的传输解决方案。光电融合设备的核心在于其能够通过相干光模块,如 ZR/ZR 模块,将数据直接从 IP 路由器端口进行传输,这有助于简化网络传输,节省资本支出,减少对网络中的转发器和光传输设备的需求,从而实现简化网络架构、降低资本支出、提升网络灵活性和可扩展性。在光电融合网络设备的初期阶段,光电解耦式部署是主要的技术架构。在这种方案中,IP 层和光层的功能被独立部署,即路由器仅负责处理传统的 IP 层数据转发功能,通过路由器支持可插拔彩光模块来进行光信号传输,而光层的功能则通过独立的光层平台实现,通常使用 DWDM 等光层技术来进行波分复用和光信号放大。路由器和光层平台之间通过标准化协议接口(如 NETCONF、RESTCONF 等)进行协同工作。这种部署方式的优势在于可以根据需要灵活扩展每一层,IP 层和光层可以独立演进,且能支持复杂的网络架构需求。这种架构虽然在一定程度上降低了初期的复杂性,但是从光电协同及两套设备的运维上,仍然复杂度较高。随着技术的不断发展,光电融合设备正在向一体化集成设备演进,这一阶段的设备开始将 IP 层与光层功能深度集成。这种集成化设备不仅支持常规的 ZR/ZR 相干光模块,还能将光层调度功能(如ROADM)和光放大功能(如 EDFA)集成到同一个设备中。通过集成EDFA和ROADM,设备不仅能够提升光层传输的稳定性和灵活性,还能增强网络中的带宽管理和调度能力。相较于光电解耦式部署,这种集成化设备能有效减少网络中的设备数量和复杂度,提升网络的可靠性和操作简便性。设备通过将光电功能和 IP 路由功能结合,适应了需要高带宽、低延迟的数据中心互联(DCI)、骨干网以及城域网等场景的需求。随着网络向更智能和灵活的方向发展,光电融合设备不仅仅从硬件形态上逐渐完成融合,未来也将逐步进入全可编程白盒设备阶段,这标志着设备架构的重大变革。全可编程白盒设备不仅支持 IP 层和光层的统一调度,还提供了极高的灵活性和可编程性。通过 SDN(软件定义网络)控制协议和开放接口,这些设备可以动态调整 IP 和光层资源的配置,使网络更具弹性,能够快速响应变化的需求。全可编程白盒设备能够支持复杂的网络自动化运维,并且非常适合用于下一代的智能化网络,例如面向边缘计算、AI 驱动的自动化运维以及云计算的网络架构。通过支持网络切片、虚拟化等技术,这些设备可以提供更高效的资源利用,并能够通过高度集成的管理和编程接口,满足大规模、高效且智能化的网络部署要求。这种设备形态的核心在于开放性和可定制化,支持运营商和企业根据不同业务需求进行精细化的网络资源配置,推动了开放网络架构的逐步普及。2024 年由紫金山实验室和江苏未来网络集团牵头,联合业界多家厂商,基于 CENI 现网环境,开创性地将“IP 光”光路由技术与确定性网络技术、支持 ZR 的路由器技术整合,探索出一个自主可控的、确定性增强的、光数合一的未来网络光电融合广域确定性网络方案。该方案在 CENI 生产网中对光电融合确定性路由器做了严格测试验证,通过中国信息通信研究院的权威测试,实现了超 2000 公里的无电中继无损传输和 400G 速率 5 微秒抖动的确定性传输两项重大突破。未来网络试验设施(CENI)是全球首个实现 2000 公里以上“IP 光”广域无损承载和“400G 速率 5 微秒抖动”确定性承载的光电融合广域确定性网络,具有高效率、高可靠、低成本、低能耗等特点,处于国际领先地位,为“东数西算”算力网、城市区域算力网、数据要素高速承载网、运营商新型承载网等新型广域网建设提供了一个全新的技术路线,大幅降本增效提质。新华三(H3C)在光电融合领域提供了强大的解决方案,特别是CR19000-X、CR16000-F、CR16000-M 系列路由器。这些设备具有高密度接口(包括 FE/GE、10GE、25GE、40GE、50GE、100GE、400GE接口),并且在单槽位性能上支持灵活扩展,未来也可升级到 800GE和 1.6TGE 接口,具备广泛的光电融合应用场景。CR19000-X 系列:主要面向核心层设备,支持最高 400GE 接口,能够满足大规模网络运营商对高性能核心设备的需求,且具备未来的技术演进能力。图 6.CR19000-X 系列路由器CR16000-F 系列:具备多种应用场景,涵盖核心、汇聚、接入等多层次的部署需求,支持 400GE、100GE、10GE 接口,并提供 IP 光融合功能,适用于多种不同规模的网络架构。图 7.CR16000-F 系列路由器CR16000-M 系列:适用于接入和汇聚层的设备,支持 100GE、10GE 接口,并同样具备 IP 光融合的能力,可以灵活应对不同层级的网络组网需求。图 8.CR16000-M 系列路由器H3C 的 OPN DW500E 光层平台为 IP 光融合方案提供了全面的光层支持。它采用模块化设计,提供多个业务槽位,可根据需求灵活配置,支持包括合分波器、光放大器、光保护、光交叉(WSS)等功能,为数据中心互联(DCI)、城域网、骨干网等多种场景提供强大的光电融合能力。DW500E 光层平台与 H3C 的路由器系列无缝对接,具备支持 100G、400G、800G 等 ZR/ZR 彩光模块的对接能力,并通过 SDN(NETCONF/RESTCONF)接口,支持灵活开放的管理方式,进一步增强了网络的可编程性和自动化运维能力。5.3 光电融合管控系统光电融合管控系统光电融合网络的核心在于实现 IP 层与光层的深度协同,统一控制器作为这一体系的“大脑”,其智能化、开放性和跨层能力成为推动网络自动化、智能化演进的关键。以下将从架构、控制能力、运维能力、开放性、业务能力五大维度,系统分析各类光电融合网络管控系统。1.架构维度在架构设计中,灵活性和扩展性至关重要,因此统一控制器通常采用集中式与分布式架构相结合的方式,以适应不同网络规划和不同网络域资源协调和业务编排的需求。控制层不仅承载传统 IP 网络与光传送网络的控制功能,还需支持。为了增强系统的开放性和互操作性,统一控制器还必须具备强大的开放 API 能力,可以与 OSS/BSS系统对接,并支持与第三方设备、厂商的系统进行无缝对接。这些技术能力确保了网络运营商可以在不断变化的市场需求下,快速应对不同的业务挑战。随着 AI 技术的发展,AI 能力开始被应用于故障诊断、路径优化和容量预测等领域,帮助网络运营商实现高效、智能的网络管理。典型的方案包括:华为的方案是通过超级控制器或者协同器将 IP 层和光层的独立控制器进行融合控制与调度。思科与 Juniper:利用标准化接口和高效的网络数据建模能力,实现了智能化的网络控制和业务调度。未来网络团队:通过统一融合的大网操作系统实现 IP 层和光层的统一管控,结合 AI 的能力,实现光电业务协同的能力。2.控制能力维度:IP 层 光层 跨层控制能力光电融合网络中的控制能力要求 IP 层、光层以及跨层控制之间的深度协同。IP 层控制能力包括 SR/MPLS、FlexAlgo、SR Policy、VPN、L2/L3 组播等,主要解决数据包的路由、流量优化和网络管理问题。光层控制能力则涵盖了波分复用的合分波调度、光信号放大的均衡等。跨层控制能力则涉及到更为复杂的跨层协调,例如光层与 IP层的互联和协同,确保两者之间的资源能够高效利用,从而实现更为灵活的网络资源调度。例如,跨层链路发现、光层路径与 IP 层路径之间的约束协同控制等。差异化对比方面,部分厂商通常更倾向于将 IP 与光层深度联动,通过 SR Policy 等技术实现自动化的路径关联与资源优化;而一些厂商则更强调光层自治,通过标准化接口进行光层与 IP 层的协同,达到较高的灵活性和可扩展性。未来,随着光电融合的深度发展,跨层协同能力将成为关键的竞争优势。3.运维能力维度:智能化运维与知识图谱应用光电融合网络的运维能力是确保网络长期稳定运行的关键。智能化运维主要体现在全程监控、故障预测与根因分析等方面。在全程监控能力方面,统一控制器需要实时监测从物理端口到业务通道的每一层状态,确保每个环节都在可控范围内。根因分析则通过构建知识图谱,关联链路、设备、业务与告警,实现故障源的快速定位与处理。此外,AI 辅助运维则进一步提高了故障诊断的准确性与响应速度,通过大数据分析和机器学习模型,提前预测潜在的网络问题,并提出合理的优化建议。例如,中国电信通过融合图谱平台与大模型,实施跨域故障分析,不仅提高了故障定位的速度,还降低了人为干预的需求;AT&T 则通过推出网络数字孪生技术,模拟网络行为和故障,提前进行运维仿真,进一步降低了网络故障的风险。未来网络团队则通过将图谱系统与大模型结合,推动了跨层的知识问答,增强了运维人员对网络故障的诊断与处理能力,往高阶网络自动化持续演进。4.开放性与兼容性维度:生态适配能力在光电融合网络中,统一控制器的开放性与兼容性是决定其市场适应能力的关键因素。随着不同厂商和技术的不断涌现,统一控制器必须具备支持多厂商设备、多技术路径、开放平台的适配能力。为了实现这一目标,控制器需要具备灵活的南向接口适配能力,包括对NetConf、BGP-LS、PCEP、CLI 等协议的支持,确保能够与不同厂商的设备进行无缝对接。在模型开放性方面,统一控制器需要支持OpenConfig、ONF-TAPI 等主流建模协议,这样可以促进行业标准的形成,并确保与各种设备和系统的兼容性。在白盒设备方面,控制器是否支持开放可编程平台也成为一个重要考量点。Juniper 与思科等厂商通过支持基于 OpenConfig 和 YANG模型的开放性,推动了行业的标准化进程;烽火在逐步开放其控制平台,推动第三方模块和 OTN 设备的接入,提升了系统的可扩展性与适应性。未来网络团队通过基于大网控制器以及以 P4、SONIC 为基础的白盒设备,不断提升可编程能力,实现了异构环境的业务协同和运维管理。5.业务能力维度:业务部署与服务编排能力光电融合网络中的业务能力不仅体现在多业务建模上,还包括业务的全生命周期管理、服务自动化与端到端 SLA 保障。在多业务建模方面,统一控制器必须能够支持 L2/L3VPN、EVPN、MPLS-TE 等多种业务类型,确保网络资源的高效分配与业务的稳定运行。跨层路径计算与部署则是光电融合网络的亮点之一,它能够实现 IP 段与光路径的一体化部署,从而提高网络的资源利用率和运营效率。在服务自动化方面,统一控制器通过对开通、变更、下线等操作的全生命周期管理,能够实现服务的自动化与智能化。随着运营商对网络自动化的需求不断提升,意图驱动的网络配置成为未来的主流,运营商通过高层的业务策略来自动生成网络配置,极大地减少了人工干预,提升了部署的效率与准确性。国内主流厂商在这方面已实现了从业务开通到光波长调度的全流程自动化,能够有效降低运营成本,并提升业务响应速度。在光电融合网络的业界趋势中,统一平台的主导权问题成为一个焦点。部分观点倾向于构建自有的统一平台,避免被单一厂商锁定,并加强自主创新与控制权;而另一部分观点则更倾向于采用多控制器联邦式架构,通过模块化部署实现灵活性和可扩展性。在这一背景下,跨厂商、跨设备的互操作性成为未来网络演进的关键要求。AI 与图谱技术在提升运维效率方面的价值依然存在分歧。部分运营商认为,AI 与图谱技术是提升运维效率的关键工具,通过深度学习与智能分析,能够有效减少故障发生率,提升网络的可用性;然而,也有运营商认为,过度依赖建模带来的成本过高,且维护复杂,投资回报率并不显著。此外,白盒与软硬解耦的趋势愈加明显,运营商对电信级白盒的依赖逐步增强,要求控制器具备更强的开放能力,并支持更多种类的开放可编程平台,推动了 OIF 与 ONF 等组织推动的标准化接口,促进了融合控制的可移植性和兼容性。六、六、光电融合网络产业应用场景与案例光电融合网络产业应用场景与案例6.1 应用场景应用场景光电融合网络作为新一代基础设施形态,其在带宽、能效、灵活性与智能管控方面具备显著优势,已逐步在多种关键场景中展开部署与验证。典型应用主要聚焦于数据流密集、时延敏感或架构解耦诉求突出的领域。首先,在算力网络互联方面,光电融合方案可实现大型数据中心、AI 集群之间的高密度、高可靠、低功耗互连,支撑智算调度、模型训练与推理等对带宽与延迟敏感的算力业务。其采用相干光模块直插路由器/交换机,简化中间层设备,实现低成本、可编程的传输链路。如“东数西算”工程推动东西部算力枢纽的广域互联,要求网络具备超大带宽、低功耗、强弹性等能力。光电融合网络以相干光模块直插 分层管控 波道智能调度为核心特征,实现大颗粒数据流(如 AI 模型、训练数据)的高效搬运。通过 IP 与光的深度协同,支持算力在东西部之间的敏捷调度和数据快速回传,是智算枢纽间互联的理想架构。其次,在运营商骨干与城域网络中,光电融合能够通过 IP 与光层的协同调度,提升光层资源利用率、降低业务开通时延,增强网络扩展能力与多业务承载效率,适配 5G/5G-A 回传、企业专线与 DCI等需求。同时,在工业互联网、车联网、智慧城市等确定性场景中,融合确定性技术的光电网络具备路径可控、微秒级抖动保障的能力,满足高清视频、智能制造、自动驾驶等超低延迟、高可靠业务需求。此外,面向未来的 AI 原生业务与元宇宙场景将催生大带宽、低延迟、高并发、多路径协同的网络需求。光电融合网络基于统一架构、分层解耦、智能管控的设计原则,可为大规模并行计算、多终端内容分发、三维互动体验等提供高质量承载平台。配合确定性切片与 AI辅助调度能力,有望成为“智能业务即网络”的技术底座。6.2 应用案例应用案例1.基于 CENI 现网的光电融合网络超长距验证紫金山实验室和江苏未来网络集团联合攻关,融合“光电融合ZR 技术”“400G 确定性网络技术”“光电融合一体调度技术”三大关键技术,在 CENI 现网上实测验证实现长三角超 2000 公里远距传输、400G 零丢包无损传输、时延和带宽全颗粒切片按需传输。三大关键技术在 CENI 现网实现的高速、高效、灵活、低成本确定性传输能力极大优化 AI 算力网络的建设和运营成本及效率,建设成本降低至少 50%以上。通过 CENI 现网资源,南京上海 2000KM 现网测试(400GZR QPSK)图 9.测试组网图(1)引入新的设备散热和供电技术,以及系统软件优化,率先支持 400G ZR (QPSK 模式),内部完成方案可靠性、风险点释放等全面验证;(2)完成 400G ZR (QPSK 模式)下光路由 2000KM 现网单光纤、无电中继的超远传输距离验证,验证 400G、800G 带宽下的高性能转发以及长时间可靠性测试。(3)基于大网控制器,利用彩光通道 SRv6 切片 信道化子接口三级调度架构,实现:1)业务级硬切片隔离,时延保障精度达50ns;2)基于 SRv6 信道化子接口的跨域通道快速重构,业务开通时间缩短分钟级;3)构建端到端智能运维体系,集成 Telemetry 实时监测与数字孪生仿真系统。2.中国电信光电融合测试(400G ZR)针对三个厂商(诺基亚、思科、国内某厂商)支持 400ZR 接口的设备进行测试:(1)均支持彩光/白光、400G/100G 接口自适应;(2)均支持 50km 光纤传输,且配合光放传输距离可达 100km;(3)均支持 L2VPN/L3VPN 业务承载,以及 OAM 功能。诺基亚诺基亚思科思科国内某厂商国内某厂商接口自适应彩光/白光自适应支持支持支持400G/100G 自适应支持支持支持波长配置可按频率/索引值/波长配置,配置范围191.3THz-196.1THz,颗粒度 100MHz按频率/通道配置,配置范围191.7THz-196.1THz,颗粒度 1MHz可按频率配置,配置范围191.3THz-196.1THz,颗粒度 100MHz默认波长1552.524 nm1552.524nm1547.72 nm25km 场景支持支持支持50km 场景支持支持支持75km 光放场景支持支持支持100km 光放场景支持支持支持VPN 业务承载(L2VPN/L3VPN)支持支持支持OAM支持 802.1ag 和802.3ah 功能支持 802.1ag 和802.3ah 功能支持 802.1ag 和802.3ah 功能3.未来网络团队基于光电融合网络的存算拉远测试在 AI 大模型训练与推理加速的需求驱动下,传统存算一体模式因算力中心与存储中心物理分离导致的带宽瓶颈、延迟抖动等问题日益凸显。光电融合网络通过彩光直连 智能调度的创新架构,为 AI 存算拉远场景提供了高性能、低时延、高可靠的解决方案(如图 10 所示)。图 10.测试组网图算力中心与企业侧:部署可编程路由器作为入算锚点,支持 RDMA 流自动识别,实现不同业务流的精准分流。CENI 网络骨干层:采用 120KM 彩光 400G ZR 彩光模块构建超长距传输链路,通过光层智能调度,实现多租户业务的资源隔离与优化。智能管控体系:基于 SDN 控制器的全局流量感知能力,动态调整网络资源,支持算力网关、CPE 等设备按需接入,保障训练任务的高效执行。为验证光电融合网络在 AI 存算拉远场景的实际价值,未来网络团队开展了对比测试,结果显示:(1)模型训练时间显著缩短传统训练方式:受限于本地存储与算力的物理绑定,训练需频繁跨节点调用数据,耗时 7.8 天;拉远训练方式:通过光电融合网络的广域流量负载分担调度算法,结合国产软硬件平台的可编程特性,实现算力中心与存储中心的内存直连,训练时间降至 4.1 天,效率提升 47%。(2)带宽资源利用率翻倍传统训练方式:因网络调度粗放,线路带宽仅利用 51%;拉远训练方式:依托智能全局流量感知与动态负载分担技术,100%释放线路带宽潜力,带宽利用率提升至 98%,资源浪费降低 48%。光电融合网络在 AI 存算拉远场景中的应用,通过彩光直连降低传输时延、智能调度提升资源效率、可编程架构适配多元需求三大核心能力,解决了传统存算一体模式的痛点:算力释放:内存直连存储中心样本数据,避免跨节点数据拷贝,充分发挥硬件算力;成本优化:带宽利用率提升近一倍,降低网络扩容与运维成本;扩展性增强:基于 SDN 的全局管控能力,支持多企业模型的灵活接入与动态调整。该方案已通过实际测试验证,为 AI 大模型训练、自动驾驶仿真等高性能计算场景提供了可复制的光电融合网络范式,推动算力网络向泛在、智能、绿色方向演进。4.中国移动基于光电融合网络的智网协同训练试验2025年7月中国移动完成业界首次800G以太网智算协同训练的现网技术试验。本次试验采用 IP 与光融合 GSE-DCI 方案,实现支持多个 800G 波长通道的彩光以太组网(Nx800G)。相较传统“网络设备 传输设备”方案,新技术降低 40%单比特成本、35%功耗及 20%节点时延。在跨智算中心 700 亿参数大模型训练中,采用流水线并行(PP)方式,实现高达 98%以上的等效算力效率,是探索跨智算中心互联的新架构和新技术的重要突破。七、七、光电融合网络行业发展建议光电融合网络行业发展建议7.1 发展面临的挑战发展面临的挑战尽管光电融合网络技术已在多个领域实现初步部署,但在规模化推广与深入应用过程中,仍面临诸多挑战:技术集成复杂性高技术集成复杂性高:光电协同涉及多层协议堆叠、多维资源抽象与统一调度,现有网络架构中难以快速对接,特别是在跨域、跨厂家设备管理方面缺乏标准化适配能力。国产化基础仍不牢固国产化基础仍不牢固:关键元器件(如 DSP 芯片、相干激光器)仍依赖进口,自主研发进展虽快但生态尚未成熟,严重制约光电融合装备的“可控可用”。运营成本控制难度大运营成本控制难度大:在多厂商设备混合组网下,管控割裂、接口不统一、网络状态不可视,运维人员负担重,整体网络效能无法最大化释放。标准规范缺失或不统一:标准规范缺失或不统一:光电融合的开放接口、建模语言(如YANG)、资源表达与切片等核心规范尚处于探索阶段,生态协同缺乏“公约数”。商业市场仍待培育商业市场仍待培育:光电融合的价值需与 AI 原生、确定性网络、算力调度等场景强绑定,但市场仍在验证阶段,商业闭环尚未成熟。7.2 发展阶段划分发展阶段划分光电融合网络的发展历程呈现出从设备解耦到协同控制、再到智能融合的技术演进路径。根据网络功能集成度、设备协同深度与管控智能化水平,可将其划分为以下三个阶段:初始互联、协同演进、智能融合。从当前行业发展现状来看,光电融合网络正处于从第二阶段(协同演进)向第三阶段(智能融合)加速演进的关键转折期控制协同已相对成熟(如多厂商设备的开放接口互通、跨层联合调度算法验证),而设备一体化的硬件集成(如光电融合路由器的商用落地)与 AI 智能调度的深度应用(如基于大模型的网络自治)正成为突破重点,推动网络向更高阶的“自主感知-智能决策-精准执行”全闭环智能化方向发展。(1)初始互联阶段:光电分层,接口有限)初始互联阶段:光电分层,接口有限该阶段以“光为管道、电为核心”为主导,光层与 IP 层物理解耦,分别部署。以灰光模块连接 IP 设备与传统波分系统为主,通常借助光传输设备进行封装、调度与 OAM 管理。IP 设备通过静态配置或有线接口与光网联动,运维依赖人工干预。关键特征:光电功能物理独立,缺乏实时联动;网络自动化程度低,设备封闭、配置复杂;控制面未实现互通,需依赖网管平台人工协调。典型应用场景:中小数据中心互联、城域业务承载。(2)协同演进阶段:控制协同,接口开放)协同演进阶段:控制协同,接口开放随着相干光模块的发展和 SDN 理念的落地,光电融合逐步进入控制协同阶段。IP 设备可直接插入彩光模块,实现光电融合组网。同时,光层控制器支持 PCEP、BGP-LS 等接口,与 IP 控制器实现路径协商与资源共享,逐步建立起多层联动机制。光网设备也由传统封闭转向 YANG 建模、NETCONF 配置等开放体系。关键特征:相干彩光模块广泛应用,支持多厂商互联;控制面打通,实现光电路径协同调度;网络模型逐步标准化,支持编排器/控制器南北向对接;DCI 与“东数西算”等场景逐渐落地。典型应用场景:大型数据中心 DCI 互联、“东数西算”枢纽间互联。(3)智能融合阶段:设备一体、)智能融合阶段:设备一体、AI 自调度自调度该阶段以“光电一体设备 智能控制”为核心,具备真正意义上的融合架构。典型形态如白盒路由器集成彩光模块、其他微光学模块(如 WDM、EDFA 等),控制平面集成 AI 预测、路径智能选择与业务意图识别能力,支持切片、确定性调度、服务质量动态保障等高级特性。设备管理接口统一,光电网络实现“即插即用、即调即通”。关键特征:光电同构设备普及,资源池化与服务化;控制器具备 AI 能力,具备路径预测与业务编排;网络具备确定性(低抖动、微秒级延迟)保障能力;强适配信创环境,支持国产操作系统与硬件平台;网络配置自动化、运维“零接触”。典型应用场景:金融专网、工业互联网、智算中心互联、边缘云网络、确定性业务承载等。7.3 发展对策建议发展对策建议7.3.1 技术层面技术层面:强化自主与开放能力强化自主与开放能力面对算力泛在化、连接确定性的新时代需求,光电融合网络在技术层面,需在芯片自主、架构解耦、协议开放、智能协同四大维度实现系统性突破。核心芯片自主突破:核心芯片自主突破:加大对 DSP、相干光引擎、低功耗ADC/DAC 等核心芯片研发投入,构建稳定可靠的本土技术体系。设备解耦与模块化设计设备解耦与模块化设计:推动光层与电层的物理分离与接口标准化,支持多厂商模块级集成,降低网络建设与演进门槛。统一建模语言与开放协议统一建模语言与开放协议:基于 YANG NETCONF 构建设备建模与配置标准,兼容多种北向 API,提升编排与自动化能力。确定性与确定性与 AI 协同创新:协同创新:将确定性、路径预测、业务感知等能力与光电融合架构结合,推动低时延、高可靠新型服务保障能力落地。7.3.2 产业层面产业层面:打造生态与标准共识打造生态与标准共识光电融合网络的规模化发展亟须打破产业壁垒,以标准为牵引、测试为基石、协同为引擎,构建多主体深度参与的开放生态。通过凝聚设备商、运营商、芯片商及科研机构合力,打通“技术研发标准制定商用落地”全链条,为产业高质量发展注入持续动能。以下核心举措将加速生态成熟:构建行业标准体系构建行业标准体系:鼓励产业联盟(如 ODCC、AIIA、TIP、ONF)联合设备商、运营商和科研机构制定涵盖接口、控制、测量、安全等方向的标准。推动开放测试验证平台建设:推动开放测试验证平台建设:依托国家/行业测试中心,建立典型光电融合场景测试床,支撑设备互通、协议兼容与新技术验证。加强产业链协同合作加强产业链协同合作:打通芯片、模块、设备、系统、软件、运营多个环节,加快形成“光电融合 算力互联”融合生态。7.3.3 政策层面:政策层面:强化引导与示范推广强化引导与示范推广光电融合网络的规模化部署与产业升级,亟须发挥政策引导、支撑、规范三位一体的杠杆作用。通过重大工程牵引、创新生态培育、标准体系完善三大抓手,打通从技术研发到商业落地的关键路径,为产业高质量发展注入制度动能。以下核心举措将强化政策协同效能:推动重大工程与试点落地推动重大工程与试点落地:结合 CENI、“东数西算”等国家工程,在骨干网、专网等重点领域先行示范。支持关键技术研发与产业孵化支持关键技术研发与产业孵化:鼓励地方政府设立专项资金,支持光电融合技术创新企业、实验室和孵化平台。完善标准与监管机制完善标准与监管机制:加快国内标准体系建设进度,增强企业参与国际标准制定能力,同时制定光电融合网络安全与质量评估指标体系。八、八、光电融合网络未来展望光电融合网络未来展望未来,光电融合网络将成为支撑新型信息基础设施的关键底座,逐步从技术集成走向智能自治,实现从“能连”到“优连”、再到“慧连”的演进。随着 800G/1.6T 相干模块、AI 原生调度、确定性网络与量子通信等技术的加速成熟,光电融合网络将具备更强的服务感知能力、自主优化能力和跨域协同能力,广泛支撑智算中心互联、工业控制、车路协同、泛在算力调度等未来业务场景,推动网络架构从通用性向多样性转型,构建面向“智联万物、绿色低碳、安全可控”的新一代网络体系。附录 A:术语与缩略语中文名称中文名称英文英文缩写缩写英文全称英文全称人工智能AIArtificial Intelligence人工智能物联网AIoTArtificial Intelligence of Things自动化流量工程网络抽象与控制ACTNAbstraction and Control of TENetworks未来网络试验设施CENIChina Environment for NetworkInnovations光模块标准化联盟COBOCloud and Carrier Optical ModuleOwners光电共封装技术CPOCo-Packaged Optics数据中心互联DCIData Center Interconnect双偏振技术DPDual Polarization数字信号处理DSPDigital Signal Processing掺铒光纤放大器EDFAErbium-Doped FiberAmplifier灵活栅格技术FlexGridFlexible Grid中文名称中文名称英文英文缩写缩写英文全称英文全称灵活光接口FlexOFlexible Optical前向纠错编码FECForward Error Correction广义多协议标签交换GMPLSGeneralized Multi-Protocol LabelSwitching互联网工程任务组IETFInternet Engineering Task Force电气与电子工程师协会IEEEInstitute of Electrical and ElectronicsEngineers磷化铟InPIndium Phosphide国际电信联盟电信标准部门ITU-TInternational TelecommunicationUnion-TelecommunicationStandardization Sector第二层/第三层虚拟私有网络L2VPN/L3VPNLayer 2/3 Virtual Private Network多源协议MSAMulti-SourceAgreement中文名称中文名称英文英文缩写缩写英文全称英文全称网络处理单元NPUNetwork Processing Unit光通道数据单元ODUOptical Channel Data Unit开放前向纠错编码OFECOpen FEC光互联网论坛OIFOptical Internationale Federation开放网络基金会ONFOpen Networking Foundation开放 ROADM 多源协议OpenROADMOpen ROADM Multi-SourceAgreement八通道小型可插拔模块OSFPOctal Small Form Factor Pluggable光传送网OTNOptical Transport Network操作、管理和维护功能OAMOperations,Administration,andMaintenance概率星座整形PCSProbabilistic Constellation Shaping可编程协议无关P4Programming Protocol-Independent中文名称中文名称英文英文缩写缩写英文全称英文全称的数据平面语言Packet Processors路径计算元素通信协议PCEPPath Computation ElementCommunication Protocol正交相移键控QPSKQuadrature Phase Shift Keying四通道小型可插拔双密度模块QSFP-DDQuad Small Form Factor PluggableDouble Density可重构光分插复用器ROADMReconfigurable OpticalAdd-DropMultiplexer远程直接内存访问RDMARemote Direct MemoryAccess交换抽象接口SAISwitchAbstraction Interface软件定义网络SDNSoftware-Defined Networking白盒交换机开源操作系统SONICSwitch Operating System for OpenNetworking分段路由SRSegment Routing基于 IPv6 的分段SRv6Segment Routing over IPv6中文名称中文名称英文英文缩写缩写英文全称英文全称路由电信基础设施项目 APITAPITelecom Infra ProjectAPI流量工程TETraffic Engineering波分复用技术WDMWavelength Division Multiplexing远距离光模块接口标准ZRZeRo Dispersion Reach开放式相干光模块标准OpenZR Open ZeRo Dispersion Reach plus参考文献1 Steven J.Hand,et al.(2023).Anew operational paradigm forIPoDWDM networks.2 Paul Silverstein(2023).COMMUNICATIONS MARKETOVERVIEW.3 Samuel Liu(2023).Orion:ATipping Point for Optical Networks4 Simon Sherrington(2023).Scaling to 800G in operator metro core,backbone and DCI networks.5 苏林,CFA(2024).聚焦光模块;AI 持续赋能行业增长.6 Alexander Bakharevskiy(2013).Innovation for Converged IP andTransport.https:/.7 OpenROADM(2023).Multi-Source Agreement for OpenROADM.https:/www.openroadm.org.8 ITU-T G.709(2023).Optical transport networks(OTN)Architecture and general aspects.https:/www.itu.int/rec/T-REC-G.709.9 IEEE 802.3dj(2024).IEEE Standard for Ethernet Amendment:400Gb/s and 800 Gb/s Physical Layer Specifications.https:/standards.ieee.org.10ITU-T.G.709/Y.1331:Optical Transport Network(OTN),International Telecommunication Union(ITU),Online.https:/www.itu.int/rec/T-REC-G.709.11ITU-T.G.698.2:Optical interfaces for interworking betweenSDH and DWDM systems,International Telecommunication Union(ITU).https:/www.itu.int/rec/T-REC-G.698.2.12IEEE(2021).IEEE 802.3cw:IEEE Standard for Ethernet-400GBASE-LR8,400GBASE-DR4,and 400GBASE-SR8.13IEEE(2022).IEEE 802.3dj:IEEE Standard for Ethernet-800GBASE-LR16,800GBASE-DR8,and 800GBASE-SR16.14OIF.OIF-400ZR Implementation Agreement.https:/.15OIF.OIF-800ZR Implementation Agreement.https:/.16OIF.OIF-1.6T ZR Implementation Agreement.https:/.17Open Networking Foundation.TAPI v2.4-Transport API Specification.https:/www.opennetworking.org.18P.H.Chia,et al(2018).RFC 8453:Architecture for Controland Management of Transport Networks(ACTN).https:/tools.ietf.org/html/rfc8453.19OpenZR MSA.OpenZR MSA v3.0-OpenZR Multi-Source Agreement.https:/www.openzr.org.

    发布时间2025-08-22 95页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025算电协同技术白皮书(66页).pdf

    未来网络技术发展系列白皮书(2025)算电协同技术白皮书第九届未来网络发展大会组委会2025年8月算电协同技术白皮书 I 版权声明版权声明 本白皮书版权属于北京邮电大学、紫金山实验室所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:北京邮电大北京邮电大学、紫金山实验室等学、紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此北京邮电大学、紫金山实验室有权追究侵权者的相关法律责任。算电协同技术白皮书 II 编编写说明写说明 主编单位:主编单位:北京邮电大学、紫金山实验室 参编单位:参编单位:国网山东省电力公司信息通信公司、国网山东省电力公司青岛供电公司 江苏省未来网络创新研究院、江苏方天电力技术有限公司 中国电力科学研究院有限公司、中国联合网络通信有限公司研究院 指导专家:指导专家:刘韵洁 黄 韬 张 鑫 谢人超 田 鹏 王 勇 蒲天骄 曹 畅邢宏伟 李 勇 李 明 李 宁 严 莉 陈 琛 魏 亮 参编人员:参编人员:唐琴琴 贾庆民 文 雯 李 硕 孙思齐 李敏宽 张 岩 牛德玲 王云霄 黄 华 刘子雁 刘 学 王新惠 于文洁 程 辉 韩 然 侯 路 汪 洋 王晓辉 吴春鹏 王子涵 黄 祥 吴 媚 贾雪琴 汪 硕 刘 辉 王立文 邵子豪 王志浩 王文正 徐宏亮 谢高畅 沈 薇 第九届未来网络发展大会白皮书算电协同技术白皮书 III 前前 言言 在数字经济与能源革命深度融合的时代背景下,算力与电力的协同发展正面临前所未有的机遇与挑战。随着 5G、人工智能、工业互联网等新一代信息技术的迅猛发展,全球算力需求呈现爆发式增长,2023 年我国算力总规模已达 230EFLOPS,智能算力增速高达45%。然而,这种增长也带来了严峻的能源问题,全国数据中心年耗电量突破 1500 亿千瓦时,占全社会用电量的 1.6%,单次 AI 大模型训练的能耗相当于数百个家庭年用电量。与此同时,我国电力系统正在经历深刻变革,新能源装机占比已突破 50%,但“弃风弃光”与东部电力短缺并存的结构性矛盾日益凸显。这种算力需求激增与能源转型的双重压力,使得构建高效、低碳的算电协同体系成为实现“双碳”目标的关键路径。当前算电协同发展面临诸多现实挑战。在资源匹配方面,算力基础设施主要集中在东部负荷中心,依赖化石能源供电,而西部新能源富集区却面临算力需求不足的问题,影响了绿电的消纳。在系统协同层面,算力调度以性能优化为导向,电力系统则以稳频调峰为目标,二者缺乏统一的优化框架,造成新能源利用率损失 3%-5%。技术层面,算力系统的异构性与电力系统的波动性难以通过传统控制模型实现兼容,跨域协同效率低下。这些问题的存在严重制约了算力产业与能源系统的协同发展。本白皮书详细介绍了算电协同的发展背景、基本概念、功能架构、关键使能技术等;同时,分析了算电协同典型应用场景、生态第九届未来网络发展大会白皮书算电协同技术白皮书 IV 建设,并探讨了算电协同面临的技术挑战和未来发展方向。我们期待本白皮书能够为政产学研各界提供系统性参考,推动算力网络与新型电力系统从简单叠加走向深度融合,最终实现“绿色算力赋能数字经济,高效能源驱动算力革命”的美好愿景。第九届未来网络发展大会白皮书算电协同技术白皮书 V 目目 录录 一、算电协同发展背景.1 1.1 技术业务发展,驱动算力电力协同变革.1 1.2 国家政策规划,推动算力绿色低碳转型.3 1.3 行业实践进展,加速算力电力协同创新.5 1.4 算电协同愿景,构建比特与瓦特的智能闭环.8 二、算电协同功能架构及关键使能技术.11 2.1 算电协同功能架构.11 2.2 算电协同关键使能技术.14 2.2.1 多元异构算力适配纳管.15 2.2.2 多能互补电力协同调度.16 2.2.3 算电协同感知模型构建.17 2.2.4 高可靠确定性网络承载.18 2.2.5 生成式智能化决策控制.19 2.2.6 全周期高实时数字孪生.22 2.2.7 多要素高可信算电交易.24 三、算电协同典型应用场景.26 3.1 算随电调,助力电力新能源消纳.26 3.2 电随算用,满足算力新负荷需求.29 四、算电协同生态建设.33 4.1 电力侧发展与绿色转型.33 4.1.1 优化可再生能源供给体系.33 4.1.2 完善供需动态平衡机制.35 4.1.3 提升算力产业支撑能力.35 4.2 算力侧规划与能源协同.37 4.2.1 规划与布局算力基础设施.37 4.2.2 构建算力-电力接口技术.38 4.3 平台侧建设与功能优化.40 4.4 用户侧协同与服务创新.42 4.4.1 推进需求侧响应模式.42 4.4.2 创新算力能源交易模式.44 第九届未来网络发展大会白皮书算电协同技术白皮书 VI 五、技术挑战与未来方向.47 5.1 技术挑战.47 5.1.1 系统复杂性,算电协同的纳管挑战.47 5.1.2 资源动态匹配,协同控制的核心难题.48 5.1.3 能效瓶颈,电力侧的关键制约.48 5.1.4 安全与可靠性,交易机制的基础挑战.49 5.2 未来发展方向.50 5.2.1 智能调度技术从单目标优化迈向多模态协同,推动算力网络向全域资源动态匹配演进.50 5.2.2 绿色计算技术从能效提升转向全生命周期减碳,零碳数据中心架构加速普及.51 5.2.3 边缘计算与微电网从独立部署走向深度耦合,构建区域性能电自平衡单元.52 5.2.4 政策体系从单一激励升级为多维生态构建,算力-电力协同治理框架初步成型.53 5.2.5 量子计算与 AI 大模型赋能调度系统,突破传统优化算法的算力瓶颈.54 5.3 算力电力协同发展建议.55 参考文献.58 第九届未来网络发展大会白皮书算电协同技术白皮书 1 一、一、算电协同算电协同发展背景发展背景 随着全球数字经济与能源革命的深度融合,算力与电力的协同发展已成为推动“双碳”目标实现的关键路径。本章将从技术业务发展、国家政策规划、行业实践进展和协同愿景四个维度,系统阐述算电协同的发展背景与战略意义,为后续章节的技术架构与应用场景奠定基础。1.1 技术业务发展,驱动算力电力协同变革技术业务发展,驱动算力电力协同变革 随着全球数字经济进入高速发展阶段,算力已成为继热力、电力之后的新型生产力,在人工智能、元宇宙、工业互联网、自动驾驶等前沿领域发挥着关键作用。据中国信通院统计,2023 年我国算力总规模达到 230EFLOPS,同比增长约 35%,其中智能算力增速更是高达45%,显示出强劲的发展势头。然而,算力产业的爆发式增长也带来了巨大的能源消耗问题。以数据中心为例,2023 年全国数据中心用电量突破 1500 亿千瓦时,占全社会用电量的 1.6%,相当于三峡电站全年发电量的 1.5 倍。更值得关注的是,随着大模型技术的快速发展,单次训练能耗屡创新高OpenAI 的 GPT-3 模型训练耗电达 128.7万千瓦时,相当于 430 个家庭一年的用电量;而 GPT-4 的能耗预计是前者的 3-5 倍。与此同时,我国电力系统正经历深刻变革,新能源装机占比已突破 50%,但消纳问题日益突出。2024 年一季度,西藏光伏利用率仅第九届未来网络发展大会白皮书算电协同技术白皮书 2 为 68.6%,青海、甘肃等新能源大省也面临类似困境。在此背景下,算力负荷的时空可转移特性(如“东数西算”工程中的冷数据处理西迁)和灵活调节潜力(如 AI 训练任务的错峰调度)为电力系统提供了新的调节手段。研究表明,通过优化调度,全国数据中心可提供约3000 万千瓦的灵活调节能力,相当于 30 座百万千瓦级抽水蓄能电站。此外,在“双碳”目标约束下,算力产业的绿色转型需求迫切,但目前绿电使用率仅 22%左右,亟需建立更高效的算电协同机制。算电协同创新发展已成为当前数字经济与能源革命深度融合的核心命题。从算力需求侧看,AI 技术爆发式增长推动全球算力规模年均增速超 30%,我国智能算力规模 2023 年达 435 EFlops,占全球31%,但数据中心年耗电量预计 2030 年将突破 4000 亿千瓦时,占全社会用电量 4%,其中东部算力集群因绿电供给不足仍依赖化石能源,加剧碳排放矛盾。与此同时,电力系统面临新能源消纳的结构性难题;尽管我国风光发电装机超 14.5 亿千瓦(2024 年底),但间歇性、波动性导致西部“弃风弃光”与东部“缺电”并存,而算力中心的灵活负载特性可成为破解这一困局的关键通过 AI 调度算法将非实时计算任务转移至绿电富集时段,理论上可提升新能源消纳率 15%以上,实现“比特”与“瓦特”的时空耦合。政策层面,“东数西算”工程已明确要求 2025 年国家枢纽节点数据中心绿电占比超 80%,加快构建新型电力系统行动方案(20242027 年)更将算电协同列为新型基础设施建设的战略抓手,通过源网荷储一体化项目推动“大”“小”电网与算力节点的双向赋能。产业实践中,青海柴达木 100%绿电算第九届未来网络发展大会白皮书算电协同技术白皮书 3 力中心、阿里云张北液冷数据中心等标杆项目已验证“算力随能源跑”的可行性,但跨行业标准缺失、区域资源错配等问题仍制约协同深度,亟需通过电力市场与算力价格联动机制、虚拟电厂等技术突破构建系统性解决方案。这一变革不仅关乎单一产业,更是重塑全球竞争格局的战略支点美国、日本已加速布局算力-绿电融合技术,而我国若能率先打通“规划-技术-市场”全链条,或将输出能源数字化转型的“中国方案”。本节通过详实的数据分析,揭示了算力产业爆发式增长带来的能源挑战与电力系统新能源消纳困境,为算电协同的必要性提供了量化依据。1.2 国家政策规划,推动算力绿色低碳转型国家政策规划,推动算力绿色低碳转型 在技术业务需求驱动的同时,国家层面的政策引导为算电协同提供了制度保障和发展方向。国家层面已构建起较为完善的算电协同政策体系。2021 年 5 月,国家发改委等四部委联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,首次提出“东数西算”工程,在京津冀、长三角、粤港澳等 8 个地区布局国家算力枢纽节点,明确要求西部节点可再生能源使用率不低于 65%。2022 年 2 月,“东数西算”工程全面启动,规划建设 10 个国家数据中心集群,展望“十五五”期间,我国将进一步提升可再生能源的利用比例,到 2030 年,全国可再生能源消费量将达到 15 亿吨标煤以上。2023 年 10 月,工信部等六部门发布算力基础设施高质量发展行动计划,提出到 2025 年实现算力规模超过 300EFLOPS、智能算第九届未来网络发展大会白皮书算电协同技术白皮书 4 力占比达 35%、新建数据中心 PUE 低于 1.25 等具体目标。同月,国家数据局等五部门出台关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见,首次将算力电力协同作为独立章节,要求建立算力电力协同调度机制,支持算力企业参与电力市场化交易。2024 年,政策进一步细化落地。国家发改委加快构建新型电力系统行动方案 提出开展算力 电力协同调度试点;工信部 数据中心绿色低碳发展专项行动计划要求到 2025 年新建大型数据中心PUE 降至 1.1 以下,绿电使用率超过 50%。这些政策形成了从顶层设计到实施细则的完整体系,为算电协同发展提供了制度保障。2025 年算电协同国家政策规划的最新进展主要体现在顶层设计的深化与试点示范的加速落地。根据加快构建新型电力系统行动方案(20242027 年),算电协同被列为七大试点方向之一,明确要求在国家枢纽节点和青海、新疆等能源富集区,通过“绿电聚合供应”模式提升数据中心绿电占比,并探索算力负荷与新能源功率联合预测、柔性控制等技术,以降低电网保障容量需求。国家能源局 2025 年 5月发布的 新型电力系统建设第一批试点通知 进一步细化实施路径,提出通过余热回收、光热发电协同等技术提升能源利用效率,并要求试点项目在 2024 年 8 月后开工,2025 年底前形成阶段性成果。同时,2025 年能源工作指导意见将算电协同纳入新型电力系统建设重点任务,强调需与“东数西算”工程联动,推动国家枢纽节点数据中心绿电占比超 80%的目标。国家数据局等五部门联合印发的加快构建全国一体化算力网的实施意见则提出“算力与绿色电力第九届未来网络发展大会白皮书算电协同技术白皮书 5 一体化融合”的专项要求,计划到 2025 年底初步形成算力电力双向协同机制,并通过算力券、REITs 等政策工具支持示范项目建设。本节系统梳理了从东数西算工程到新型电力系统建设的政策演进,展示了我国在算电协同领域构建的完整政策体系。表 1-1 算电协同国家政策演进表(2021-2025)时间时间 政策名称政策名称 关键指标与要求关键指标与要求 2021.05 全国一体化大数据中心协同创新体系算力枢纽实施方案 西部节点可再生能源使用率65%布局 8 大国家算力枢纽节点 2023.10 算力基础设施高质量发展行动计划 算力规模300EFLOPS 智能算力占比 35%新建数据中心 PUE1.25 2023.12 关于深入实施东数西算工程加快构建全国一体化算力网的实施意见 建立算力电力协同调度机制 支持算力企业参与电力市场化交易 2024.07 数据中心绿色低碳发展专项行动计划 国家枢纽节点绿电占比80%新建大型数据中心PUE1.25 2024.07 加快构建新型电力系统行动方案(2024-2027)开展“算力 电力”协同试点 探索绿电聚合供应模式 提升新能源消纳率 15%如表 1-1 所示,我国算电协同政策呈现三阶段特征:2021-2022 年侧重空间布局优化,2023 年强化技术标准建设,2024 年后重点突破市场机制创新。政策也从重点考虑单节点绿电占比转向全网协同调度能力建设,体现了从局部优化到系统协同的演进路径。1.3 行业实践进展,加速算力电力协同创新行业实践进展,加速算力电力协同创新 政策引导下,行业组织、产业界和学术界正在形成协同创新的合第九届未来网络发展大会白皮书算电协同技术白皮书 6 力,推动算电协同从理论走向实践。行业组织与机构在算电协同领域开展了系统性工作行业组织与机构在算电协同领域开展了系统性工作,中国电力发展促进会于 2023 年 12 月成立电力与算力协同发展专业委员会,联合国家电网、南方电网、中国信通院等 20 余家单位编制电力与算力协同发展蓝皮书(2024)。该报告首次提出算力电力协同度评价指标体系,包含 6 个一级指标和 18 个二级指标,为行业提供了量化评估工具。中国信通院发布的算力电力协同发展研究报告(2025 年)则聚焦技术路径,提出“云边端协同调度”“算力负荷聚合响应”等创新模式。产业界也取得实质性突破产业界也取得实质性突破,2023 年 8 月,阿里巴巴与华北电力大学合作完成全球首次跨区域“算力-电力”优化调度试验,通过将杭州的 AI 训练任务迁移至内蒙古数据中心,节省电费支出 15%,减少碳排放 20%。2024 年初,腾讯联合英特尔开发出智能负载调节系统,可根据电网频率波动在 10 毫秒内完成服务器功耗调整,单数据中心可提供最大 20%的瞬时调节能力。南方电网研发的“驭电”智能仿真大模型,通过融合气象、负荷、设备等多维数据,将新能源预测准确率提升至 95%以上。华为在贵安建设的绿色数据中心采用“分布式光伏 液冷”技术,年均 PUE 低至 1.12;中国电信青海数据中心实现100%绿电供应,年减排二氧化碳 50 万吨;万国数据在上海临港试点算力银行模式,通过电力现货市场套利降低用能成本 8%。这些探索为算电协同的商业化推广积累了宝贵经验。2025 年,国家电网联合中国移动、阿里云等企业发起“算力电力协同创新推进计划”,推动第九届未来网络发展大会白皮书算电协同技术白皮书 7 “源网荷储”一体化项目落地,如青海柴达木建成全球首个 100%绿电微电网算力中心,通过“自发自用”模式实现绿电消纳率超 95%。学术界则聚焦技术融合创新,清华大学团队提出“算-电-热-碳”协同理论框架,北京理工大学团队开发出基于 AI 的算力负荷动态预测模型,可优化电网调度响应速度 30%以上。学术届也在积极推进算电协同研究学术届也在积极推进算电协同研究,北京邮电大学未来网络团队(FNL)和紫金山实验室团队持续开展创新实践,共同推动着这一交叉学科的发展。北京邮电大学未来网络团队长期深耕网络与能源融合领域,通过构建“算力-电力-环境”三元耦合技术体系,提出了面向绿色计算的算网能一体化创新架构。该团队不仅发表了多篇发表于IEEE JSAC、IEEE TMC 等顶级期刊的高水平论文,还成功研发了绿色算力枢纽一体化调度平台,这一成果已实际应用于中国能建“东数西算”项目,为甘肃庆阳源网荷储一体化智慧零碳大数据产业园建设提供了关键技术支撑。团队牵头制定的 9 项团体标准以及联合发布的行业首部 算网能一体化白皮书,为行业发展提供了重要规范指导。依托国家重大科技基础设施“未来网络试验设施”(CENI),团队构建了覆盖全国 40 个城市的试验环境,为算力网络创新研究搭建了重要平台。与此同时,紫金山实验室团队在算网融合基础理论研究方面取得突破性进展,其研发的支持大规模异构算力调度的核心技术,以及建设的国家级算力网络试验平台,为行业提供了重要的技术支撑和验证环境。两个团队通过紧密的产学研合作,共同推动了我国算力电力协同领域从理论到应用的全链条创新,为“东数西算”国家战略的落第九届未来网络发展大会白皮书算电协同技术白皮书 8 地实施奠定了坚实的学术基础和技术保障。未来,双方将继续深化在动态资源感知、跨域协同优化、可信交易机制等前沿方向的研究,共同推动构建更加绿色低碳、高效可靠的全国一体化算力网络体系。本节通过典型案例展示了产学研各界的创新实践,验证了算电协同在技术可行性和商业价值方面的巨大潜力。1.4 算电协同愿景,构建比特与瓦特的智能闭环算电协同愿景,构建比特与瓦特的智能闭环 基于上述技术、政策和实践基础,算电协同正在形成清晰的愿景框架和发展路径。算电协同是指以新型电力系统和全国一体化算力网为基础平台,通过技术创新、机制改革和产业融合,实现电力系统与算力基础设施在规划建设、运行调度、市场交易、技术创新等全环节的深度协同。其核心内涵可从四个维度解析:规划协同层面,规划协同层面,我国通过“东数西算”工程(国家发改委等,关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见,2023 年 12 月)系统推进算力基础设施布局与能源资源禀赋的匹配,引导实时性要求低的算力负荷向西部新能源富集地区转移。根据国家发改委 2025 年监测数据,内蒙古、甘肃等西部枢纽节点数据中心绿电占比已达 65%(其中内蒙古和林格尔数据中心集群绿电占比达84.57%,2025 年 5 月数据),较东部地区高出 40 个百分点,有效缓解了东部用电紧张并促进西部绿电消纳。这一协同发展模式在数据中心绿色低碳发展专项行动计划(2024 年 7 月)和加快构建新型电力系统行动方案(2024-2027 年)中得到进一步强化,明确要求到第九届未来网络发展大会白皮书算电协同技术白皮书 9 2025 年底国家枢纽节点新建数据中心绿电占比超过 80%,并通过“源网荷储”一体化等创新模式持续优化算力电力协同机制。调度协同层面调度协同层面,挖掘算力负荷的灵活调节价值。包括:时间维度上,利用 AI 训练、大数据分析等可中断负荷参与需求响应;空间维度上,通过“算力漫游”实现跨区域资源调配;能效维度上,采用液冷、余热回收等技术提升能源利用效率。国网能源研究院测算,全国数据中心可调节潜力相当于当前电网灵活调节资源的 15%。市场协同层面市场协同层面,构建电算融合的交易机制。包括绿电直供(如腾讯与华能合作的分布式风电项目)、容量补偿(对参与调度的算力企业给予经济激励)、碳电联动(将算力碳足迹纳入绿证交易)等创新模式。广东电力交易中心数据显示,2025 年上半年算力聚合商现货交易电量达 4.5 亿千瓦时,较 2023 年 1.2 亿千瓦时增长 275%,且绿电交易量达 82.9 亿千瓦时(同比增长 60.2%),环境溢价降至 6.7 厘/千瓦时 产业协同层面产业协同层面,形成双向赋能的发展格局。算力支撑电力数字化转型,如百度智能云为国网提供的AI巡检系统使运维效率提升3倍;电力保障算力绿色发展,如三峡集团在长三角建设的“风光储数据中心”实现清洁能源就地消纳。中国信通院预测,到 2025 年底算电协同将带动相关产业规模突破万亿元。电促会提出三阶段发展路径:2023-2025 年为探索期,重点突破关键技术;2026-2030 年为全面协同期,建立市场化机制;2031 年后进入深度融合期,实现“算力即电力”的智能调度。这一演进过程将第九届未来网络发展大会白皮书算电协同技术白皮书 10 推动能源与数字两大革命实现历史性交汇。本章通过“问题-政策-实践-愿景”的逻辑链条,完整呈现了算电协同的发展背景。技术业务需求揭示了协同必要性,国家政策提供了制度保障,行业实践验证了可行性,最终形成“规划-调度-市场-产业”四维协同的愿景框架。这为后续章节的技术架构设计和应用场景探索奠定了坚实基础。图 1-1 算力与电力协同发展驱动逻辑图 第九届未来网络发展大会白皮书算电协同技术白皮书 11 二、二、算电协同功能算电协同功能架构及关键架构及关键使能使能技术技术 为推进算力电力协同创新发展,整合电力与算力资源,实现能源高效利用与算力灵活调度,进一步推动数字经济与能源领域深度融合,亟需开展算电协同体系架构与关键技术创新。本章首先介绍了算电协同功能架构,然后对算电协同潜在关键使能技术进行分析总结。2.1 算电协同功能算电协同功能架构架构 算电协同功能架构是实现算力系统与电力系统深度融合的功能支撑体系。该架构遵循分层解耦、模块协同、智能演化的设计理念,围绕资源调度、系统感知、任务控制、能效优化等核心目标,构建涵盖从基础设施到智能决策的完整功能闭环。整体架构划分为五个功能层级:基础设施层、数据接入层、智能决策层、应用服务层与安全保障层。图 2-1 算电协同功能架构图 第九届未来网络发展大会白皮书算电协同技术白皮书 12 (1)基础设施层)基础设施层 基础设施层是算电协同系统的物理承载基础,包括计算基础设施(如边缘节点、云平台、高性能计算集群)、网络基础设施(如确定性以太网、广域传输链路)以及能源基础设施(如光伏阵列、储能设备、电力监测终端)。本层负责算电任务的运行支撑与能量供给,要求具备高可用性、可扩展性与绿色化能力。(2)数据接入数据接入层层 数据接入层在算电协同中发挥着统一资源感知与数据支撑的基础作用,具体包括感知模块、建模模块与数据服务模块。具体功能有:实现对算力、电力、网络等多源异构资源状态的实时感知与数据采集、构建任务行为与资源状态的多维建模体系,支持预测评估与能效优化以及提供边缘与中心的数据缓存、分发与分析能力,为调度控制策略提供数据支撑1。该层实现算电资源的全域感知、精准建模与高效数据支撑,助力智能调度与协同优化。(3)智能决策智能决策层层 智能决策层是实现算电资源全局优化与任务智能调度的核心层级,融合了控制机制与决策智能。该层集成算力调度、电力分配、网络控制等功能模块,结合人工智能、大数据分析、强化学习等技术,开展资源预测、任务规划、碳排控制与成本评估。(4)应用服务应用服务层层 第九届未来网络发展大会白皮书算电协同技术白皮书 13 应用服务层负责对算电系统内各类服务能力进行统一注册、封装与组合。该层支持多租户接入、服务模板管理、任务部署调度与运行状态监控,确保算电服务的灵活调用与高效交付。(5)安全保障层)安全保障层 安全保障层为算电系统提供全面的可信运行环境。该层涵盖身份认证、访问控制、数据加密、隐私保护、可信交易与应急响应等功能,构建纵深防御体系,确保数据安全、交易可信与服务可用。算电协同功能架构通过五层功能模块的协同配合,实现从“资源运行”到“智能调度”的全流程闭环支撑。该架构可适应多业务场景、复杂资源环境与动态负载需求,为算电系统提供可持续、高效率、高可靠的服务支撑能力。第九届未来网络发展大会白皮书算电协同技术白皮书 14 2.2 算电协同算电协同关键关键使能技术使能技术 在算电协同体系中,使能技术是实现算力、网络与能源资源高效融合与协同调度的关键支撑。其涵盖从底层资源纳管,到能源多能互补调度,再到全局感知预测、确定性网络承载、智能化决策控制、全周期数字孪生以及多要素可信交易等多个环节。通过技术协同共同构筑面向绿色、低碳与高效运行目标的算电融合基础设施底座。表 2-1 算电协同关键使能技术表 技术名称技术名称 核心目标核心目标 关键方法关键方法 多元异构算力适配纳管 统一管理跨层级、跨架构、跨域的算力资源 资源建模与能力抽象、异构资源编排与统一调度、标准化接口与协议、“中心 边缘”纳管 多能互补电力协同调度 实现算力系统与能源系统的时空优化耦合 源网荷储一体化、多能互补、综合能源系统集成、任务负载预测与自适应调度 算电协同感知模型构建 实现算力、电力、网络多维资源的实时感知与预测 感知采集、智能融合、预测决策(LSTM、Transformer 等)高可靠确定性网络承载 保障算电任务传输的低时延、高可靠性 时间敏感网络(TSN)、SRv6、广域无损网络(RDMA、RoCEv2)、网络测量与反馈 生成式智能化决策控制 实现资源调度的智能生成与自适应优化 生成式算法(Transformer)、在线学习与反馈机制 全周期高实时数字孪生 构建算电系统的虚实映射,实现实时监控与优化 生命周期管理、实时监控与反馈、自适应控制 多要素高可信算电交易 构建透明、公平、可追溯的资源交易机制 区块链、智能合约、碳排放因子与能耗权重、多维资源组合交易 第九届未来网络发展大会白皮书算电协同技术白皮书 15 2.2.1 多元异构多元异构算力算力适配纳管适配纳管 在算电协同体系中,算力资源的异构性是调度管理的关键挑战。当前计算资源呈现出多层级(云、边、端)、多架构(CPU、GPU、FPGA、ASIC)以及多运营域(公网、私网、专网)并存的格局。与此同时,各类算力节点在任务响应能力、能耗水平、部署位置等方面存在显著差异,若无法统一建模与纳管,将严重制约协同效率。因此,构建面向多元异构算力资源的适配与纳管机制,是实现算电协同调度的核心基础2。面向异构算力系统的纳管体系,主要从资源建模、能力抽象、标准接口和自治控制四个维度进行构建:(1)资源建模与能力抽象:)资源建模与能力抽象:通过构建统一的资源建模框架,对不同类型算力资源的算力指标(如 FLOPS)、能效比(如 TOPS/W)、网络延迟、功耗水平等进行标准化表达,形成可调度、可比对的虚拟算力单元(Virtual Computing Unit,VCU),为算电协同调度提供抽象载体3。(2)异构算力编排与统一调度:)异构算力编排与统一调度:引入容器化调度(如 Kubernetes)与算网融合调度框架(如 Volcano、KubeEdge),实现 CPU、GPU、FPGA 等异构资源的统一调度与按需编排,满足不同计算任务对性能、时延、能耗的差异化要求。(3)标准化接口与协议体系:)标准化接口与协议体系:面向算电平台与应用接入侧,建设支持 OpenAPI、gRPC、ONNX Runtime 等协议的标准化接口体系,确保多厂商、多系统环境下的资源能力可识别、可调用、可复用。第九届未来网络发展大会白皮书算电协同技术白皮书 16 (4)自治控制与边缘纳管:)自治控制与边缘纳管:构建“中心 边缘”双层纳管体系,在边缘节点部署智能代理模块,实现算力资源的状态感知、自主注册、动态调控与异常恢复,降低系统整体运维复杂度,增强纳管系统的可扩展性与鲁棒性。多元异构资源适配纳管体系的建立,不仅提升了资源统一管理的效率,也为实现弹性算力提供了必要前提,构筑算电协同系统的算力基础设施底座。2.2.2 多能互补电力协同调度多能互补电力协同调度 算电协同的本质,是算力系统对电力系统的深度感知、动态响应与反向驱动。在以可再生能源为主体的新型电力系统中,“源网荷储”一体化与“多能互补”协同机制成为能源高质量供应的关键支撑。实现算力系统与电力系统在时空维度上的优化耦合,是推动绿色、稳定、经济算电调度的必要路径。在“源”侧,融合风能、光能、水能等可再生能源,构建清洁化供能体系;在“网”侧,构建覆盖广域的智能输电网络,通过输配一体的能流调控系统,实现电能的跨区协调与精准传输;在“荷”侧,引入算力负载预测4与自适应调度策略5,实现任务电耗负载的动态转移与均衡调控;在“储”侧,部署灵活储能单元,支撑高波动负载下的稳定供能。此外,综合能源系统(Integrated Energy System,IES)进一步整合电、热、冷、气等多种能源形式,打通算电任务生命周期中可能涉及第九届未来网络发展大会白皮书算电协同技术白皮书 17 的跨域能流路径,为算力基础设施提供柔性、高效、低碳的能源支撑。通过能源管理平台,算力负载可与能源供给实时互动,实现动态价格驱动下的任务迁移与能耗分摊。该技术体系的最终目标,是构建“算为电服务、电为算赋能”的双向协同模型,推动算力基础设施与电力系统的同步演化,为构建绿色可持续的算电协同系统提供坚实支撑。2.2.3 算电协同感知模型构建算电协同感知模型构建 算电感知模型是实现算电协同系统智能调度的前提保障,其目标是实现对算力状态、电力供应、网络连接质量等多维资源信息的实时感知与动态预测,从而支撑任务在调度前的精准匹配与在运行中的自适应调整。感知模型主要分为三层架构:感知采集层、智能融合层与预测决策层。(1)感知采集层感知采集层:部署于算网能三类资源的关键节点,通过传感器、控制器与标准化接口采集当前运行状态信息。例如,算力侧监测节点 CPU 利用率、内存占用、电耗水平等;电力侧感知电压波动、负载响应、电价趋势等;网络侧感知带宽、时延、丢包等关键指标。(2)智能融合层智能融合层:基于边缘计算节点与中心调度平台,对感知数据进行时空对齐、语义关联与清洗降噪,构建统一的数据表示模型。(3)预测决策层预测决策层:是感知模型的智能核心,基于大数据驱动的机器学习模型(如 LSTM、Transformer、LightGBM 等)进行任务行为建模、能耗演化建模与网络 QoS 趋势预测,进而实现如任务执行第九届未来网络发展大会白皮书算电协同技术白皮书 18 时间预测、电力价格时序预测、节点拥堵概率评估等关键指标的前向推演。通过引入元学习、自适应学习等技术,可不断提升预测模型的泛化能力与鲁棒性。感知模型不仅提升了调度系统的智能化水平,还为绿色调度、碳排优化、能耗闭环控制等功能提供了决策基础,是支撑算电协同的关键使能环节。2.2.4 高可靠确定性网络承载高可靠确定性网络承载 在算电协同体系中,网络不仅作为资源传输的基础设施,更是连接算力、电力和调度控制各要素的关键纽带。算电任务对时延敏感性高、负载波动性大、控制反馈频繁,传统“尽力而为”的网络已难以满足协同调度所需的高可靠、低时延与高带宽性能。因此,构建支持确定性通信与资源感知调度的高可靠网络能力体系,成为算电融合发展的核心支撑。(1)确定性网络确定性网络基于时间敏感网络(Time-Sensitive Networking,TSN)与 IPv6 分段路由(Segment Routing over IPv6,SRv6)等技术,能够在多跳传输环境中实现端到端的低时延、低抖动与高可预测性。其核心机制包括时间同步、时隙调度、路径预留与流量整形等,适用于算电系统中对控制闭环要求高的场景(如电网调频、负载迁移、边缘推理任务传输等)。通过 TSN 调度机制,任务数据包可根据优先级与时限进行排队与转发,避免突发拥塞带来的性能波动。(2)广域无损网络)广域无损网络(Lossless WAN)通过 RDMA(远程直接内第九届未来网络发展大会白皮书算电协同技术白皮书 19 存访问)、RoCEv2、PFC(优先级流控)等协议构建跨区域、无拥塞的数据传输路径在广域调度环境下,算电系统跨域部署广泛,涉及多级边缘、云中心与分布式电源系统,需借助广域无损网络(Lossless Wide-Area Network)技术,保障高并发数据流的传输效率与一致性。无损网络引入拥塞控制(如 ECN 标记)、队列优化(如 RoCEv2)与端到端流控机制,在面对算力状态回传、能耗预测数据上传、电价曲线下发等数据流场景中,有效降低重传率与延迟波动,提升系统响应速度。此外,网络还具备资源感知与调度反馈能力。通过网络测量(Network Telemetry)技术,系统可实时采集链路利用率、时延变化、带宽瓶颈等信息,反馈给算网调度平台,辅助实现路径重选、任务转移与资源重配,提升整体算电调度的适应性与鲁棒性。通过引入确定性与无损通信机制,构建面向算电任务的高可靠网络基础,可为算电融合提供坚实的连接底座与动态支撑能力。2.2.5 生成式智能化生成式智能化决策控制决策控制 算电协同网络智能决策是实现高效资源管理和优化服务的关键环节。它实时监控分析海量数据,并据此动态调整资源分配,以满足变化的用户需求和业务要求。(1)决策生成技术:决策生成技术:综合分析用户意图、业务场景、资源状态等多维信息,运用智能算法自动生成最优的资源配置和调度决策。(2)自适应与反馈机制:自适应与反馈机制:系统通过在线学习持续更新模型参数,第九届未来网络发展大会白皮书算电协同技术白皮书 20 适应环境和需求变化。同时收集用户反馈和性能数据,不断优化决策模型,提升准确性和鲁棒性。综合运用这些技术,智能决策系统能高效管理资源、优化服务,提升用户体验和系统性能,增强响应速度、准确性、鲁棒性和灵活性,为算力网络智能化奠定基础。图 2-2 Transformer 原理 在智能决策中,生成式智能算法(如 Transformer)在算力能源管理等领域作用显著。Transformer 是一种先进的序列建模方法(原理见图 2-2),核心组件为编码器和解码器:编码器:编码器:输入序列经词嵌入转换为向量,再经多层编码器处理。每层包含自注意力结构(计算元素间相关性,捕捉全局上下文)和多头注意力机制(并行多角度建模,增强表达能力),以及进行非线性变换的前馈网络。解码器:解码器:除自注意力、多头注意力和前馈网络外,增加了编码第九届未来网络发展大会白皮书算电协同技术白皮书 21 器-解码器注意力子层(建模输入与输出序列间相关性)。多层解码器堆叠,逐步生成目标序列并参考源语言上下文。处理步骤:处理步骤:输入编码(词嵌入)编码器层(生成编码矩阵)解码器层(输出目标序列)。图 2-3.Stable Diffusion 原理 Stable Diffusion 是一种先进的图像生成技术(原理见图 2-3),通过多步骤从噪声生成高质量图像,涉及编码器、解码器、学习的条件、采样和去噪阶段:编码阶段:编码阶段:预处理后,图像经编码器网络转换为潜在图像(捕捉关键特征)。学习条件学习条件:提取编码器特征或其他条件信息(如使用 CLIP 编码器基于对比学习对齐图文语义的模型)指导生成。采样阶段采样阶段:对潜在图像采样,生成向量输入生成器。去噪阶段:去噪阶段:迭代使用生成器网络和学习条件,从噪声逐步恢复高质量图像。其核心技术包括:第九届未来网络发展大会白皮书算电协同技术白皮书 22 VAE(变分自编码器):(变分自编码器):由编码器(压缩图像,保留深层特征)和解码器(恢复至像素空间)组成。条件编码器(如条件编码器(如 CLIP):):提供图文语义指导。UNet:经典的编码器-解码器结构图像分割模型。编码器(卷积和池化层)逐步提取特征并降维;解码器(上采样和特征融合)逐步恢复尺寸并生成结果。在此用于实现高质量图像生成,有效融合多级特征处理不同目标,具有强鲁棒性。2.2.6 全周期高实时全周期高实时数字孪生数字孪生 在算电协同的控制阶段,数字孪生技术的应用至关重要,能有效提升网络管理效率、优化资源调度。其应用主要体现在孪生体的生命周期管理、实时监控与反馈、自适应控制策略等方面。(1)生命周期管理涵盖从创建、运行、优化到维护的全过程。创建阶段创建阶段,系统需从物理算力网络中获取基础数据,包括计算节点拓扑结构、资源利用率、数据流向等,并利用数据建模技术构建虚拟映射体,此过程依赖传感器数据采集、网络日志分析以及人工智能算法,以确保孪生体对物理系统的映射精度足够高。运行阶段运行阶段,孪生体实时同步物理网络的状态数据,并通过多层次建模手段,实现对算力资源的动态监测和智能预测,结合大数据分析和机器方法学习,不断优化预测能力,提高资源调度的准确性,确保算力网络的高效运作。优化阶段优化阶段,系统基于长期运行数据和动态环境变化,对孪生体第九届未来网络发展大会白皮书算电协同技术白皮书 23 进行智能调整,适应不断演进的计算需求,优化过程主要依赖数据挖掘、强化学习以及自适应优化算法,涉及能耗管理、资源负载均衡以及异常检测等多个方面。当孪生体的运行性能下降或算力网络发生重大变更时,需进入维护或替换阶段,系统对孪生体的建模精度进行评估,并依据最新的物理网络状态对孪生体进行升级或重构。(2)实时监控与反馈机制使得算力网络能够在毫秒级时间内感知网络状态,并据此调整资源分配策略。在实时监控体系中,孪生体从物理网络中获取计算节点的运行状态数据,并结合历史数据进行趋势分析,以预测未来算力需求,这一过程依托于云计算、边缘计算以及大数据分析技术,使得孪生体能够在计算资源紧张或任务负载激增时,迅速调整调度方案,优化算力资源的利用率,同时提供可视化数据展示,使管理者能够直观了解算力网络的运行状况。(3)自适应控制策略的核心目标是根据算力需求的实时变化,动态调整计算资源分配方案。传统算力网络的控制机制基于固定规则设定,在面对突发计算需求或网络环境变化时存在明显局限性,而数字孪生的自适应控制策略依赖于强化学习、神经网络和深度学习等人工智能算法,能够在不断变化的环境中进行实时调整。自适应控制策略还能实现智能负载均衡与能耗优化,实时监测网络状态,根据当前计算需求,动态调整计算资源的分配,当计算需求低谷时,关闭部分计算节点,以减少能耗,而在计算需求高峰时,自动扩展计算资源,确保计算任务能够高效执行,同时利用历史数据预测未来计算需求,提前做好资源调度准备,减少突发计算需求对系统稳定性的影响。第九届未来网络发展大会白皮书算电协同技术白皮书 24 2.2.7 多要素高可信多要素高可信算电交易算电交易 算电协同系统作为多主体参与、多资源流动、多场景协同的新型体系,其资源调度与服务模式日益朝着市场化、自组织方向发展。在此背景下,传统依赖中心化平台的资源交易模式难以满足系统对透明性、公平性与可追溯性的需求。因此,构建基于区块链的算电资源可信交易机制,是推动算电协同迈向开放协同与高可信自治的重要路径。交易机制将算力供应商、电力供应商、任务需求方、调度平台等多方纳入统一的可信网络中,通过分布式账本技术实现资源状态、价格、交易等信息的同步共享与共识记录。系统引入智能合约机制,支持自动化的资源撮合、价格结算、服务审计等交易过程,降低交易成本与信任门槛。例如,当用户提交调度请求,平台可通过合约自动比对资源匹配度与碳排等级,在多方中择优生成交易对并完成资源绑定。可信交易机制支持多维资源的组合交易,如“算力 绿电”、“计算 带宽 时延保障”资源服务。平台可在交易中引入碳排放因子与能耗权重,实现绿色优先调度与碳资产管理。同时,系统支持引入可验证计算、可信执行环境等技术,确保服务方履约情况的链上可验证与纠纷可追溯,提升资源交易体系的可靠性与安全性。此外,平台还可与现有电力碳市场、算力服务平台进行对接,推动“算电碳”三要素在价值层面的融合交易。例如,完成某一绿色算力任务后,平台可根据实际能耗计算并发行碳积分,作为绿色任务的凭证,支持后续在能源积分交易市场中自由流通。区块链技术为算电资源交易构建了“可信账本 自动履约 多方协第九届未来网络发展大会白皮书算电协同技术白皮书 25 作”的数字信任基础。未来,基于可信交易机制的算电协同系统将具备更高的市场弹性、更强的资源流通效率以及更优的绿色发展能力,成为数字经济与绿色能源深度融合的重要支点。第九届未来网络发展大会白皮书算电协同技术白皮书 26 三、三、算电协同典型算电协同典型应用场景应用场景 在“双碳”目标引领下,算力基础设施与电力系统的深度融合已成为推动能源转型与数字经济发展的关键路径。一方面,以“算随电调”为代表的调度机制,通过柔性调控算力负荷主动适配新能源出力特性,有效提升可再生能源消纳能力;另一方面,“电随算用”模式通过电力资源的动态优化配置,满足算力负荷的差异化需求,实现绿电高效利用与算力稳定运行的协同。两种模式互为补充,共同构建了“源-网-荷-储-算”一体化发展的新格局。图 3-1 典型算电协同应用场景 3.1 算随电调,助力电力新能源消纳算随电调,助力电力新能源消纳 在“双碳”目标驱动下,算力基础设施作为新型能源负荷的重要组成,正在成为影响电力系统运行的新变量。随着大模型训练、人工智能推理、批量渲染等高能耗算力任务需求激增,算力能耗占比持续上升,对电网负荷和新能源消纳能力提出更高要求。在此背景下,“算驱电”调度机制应运而生,即通过算力任务的柔性调控,主动响应电力系统状态,提升可再生能源利用水平,实现算力与电力系统的深度第九届未来网络发展大会白皮书算电协同技术白皮书 27 融合协同。表 3-1 算随电调应用实例表 序号序号 项目项目 位置位置 1 Tesla 自动驾驶训练集群调度 美国内华达州 2 Microsoft Azure 爱尔兰风电数据中心 爱尔兰都柏林 3 字节跳动 清洁能源算力迁移项目 内蒙古乌兰察布 4 阿里云算力-电力联动项目 浙江杭州(1)发展特点发展特点 当前,我国可再生能源发展呈现出集中式大规模接入与分布式多当前,我国可再生能源发展呈现出集中式大规模接入与分布式多点消纳并存的格局,风电、光伏等清洁能源资源具有明显的波动性和点消纳并存的格局,风电、光伏等清洁能源资源具有明显的波动性和间歇性,部分地区间歇性,部分地区“弃风弃光弃风弃光”问题仍较突出问题仍较突出。与此同时,算力资源呈现“可转移、可延迟、可拆分”的典型特征,为其作为“柔性可控负荷”参与电力系统调度提供了现实基础,具备广阔的技术应用前景。然而,算力参与电力系统调度仍面临多重挑战:一是算力任务调度与电网调控节律之间存在时空偏差。由于算力任务的调度粒度与电网调控节律存在时空偏差,因此亟需建立更精细化的预测与匹配机制。二是算力调度策略无法完全适配电力系统的调度特点。当前算力调度主要以算力利用效率为核心,与能源调度的目标不一致,缺乏面向电力系统友好性的联合优化策略。三是能源系统与算网系统之间的建模标准存在壁垒。由于能源系统与算力系统之间仍存在数据壁垒与接口不兼容问题,联合优化过程中容易产生模型冲突,因此制约跨系统协同能力的提升。第九届未来网络发展大会白皮书算电协同技术白皮书 28 (2)应用)应用现状现状 在实际应用中,西北风光基地与“绿电算力集群”的协同调度便是“算随电调”的典型场景。我国西北地区(如甘肃、宁夏)拥有多个千万千瓦级风光基地,是新能源富集区域,但同时也面临着新能源消纳难与算力需求增长的双重挑战。一方面,风电、光伏受天气影响显著,出力随机性强,若本地用电负荷不足,易出现“弃风弃光”现象,2022 年西北弃风率约 3%,弃光率约 2%,仍有较大优化空间;另一方面,数字经济的蓬勃发展推动 AI 训练、数据备份、视频渲染等算力任务激增,而算力中心属于高耗能设施,单座超算中心年耗电量可达 10 亿度以上,若依赖火电则与“双碳”目标相悖。基于此,当地在“风光”基地周边布局“绿电算力集群”,借助“算随电调”模式实现新能源与算力的协同,既解决了新能源消纳问题,又为算力提供了低成本的绿电。该场景的具体运作流程在不同时段呈现出不同特点。在白天光伏大发时段(9:00 15:00),光伏出力峰值较高,风电出力较低,总新能源出力存在过剩情况。此时,算力调度系统启动“负荷提升模式”,优先运行延迟容忍类任务,使算力集群满负荷运行,恰好消化过剩的新能源电力,避免弃光。傍晚风光交替时段(17:00 19:00),光伏出力快速下降,风电出力有所上升,但总新能源出力无法完全覆盖本地负荷,存在缺口。算力调度系统切换为“负荷削减模式”,仅保留实时性任务,降低算力负荷,以匹配新能源出力与本地负荷的总和。夜间风电波动时段(23:00 次日 3:00),光伏停运,风电出力波动大,第九届未来网络发展大会白皮书算电协同技术白皮书 29 可能导致电力供需失衡。算力调度系统启动“动态跟随模式”,根据风电出力的变化实时调整算力负荷,以实现电力的平衡。“算随电调”模式的有效运作离不开关键支撑技术。新能源出力预测系统基于 AI 模型,结合气象数据提前预测风光出力,为算力调度提供时间窗口;算力任务分级机制将任务分为实时性、延迟容忍和弹性三类,便于根据电力情况进行调度;电算协同调度平台整合各类数据,通过优化算法实时输出调度指令,实现电力与算力的协同。该应用场景取得了显著的效果,新能源消纳率大幅提升,风光弃电率从原 3%5%降至 1%以下,年增新能源利用量超 1 亿度;算力成本降低 200%,得益于新能源低谷电价;同时,低碳效益显著,50 万千瓦算力集群年减碳量约 40 万吨(等效替代火电)。(3)未来需求及发展趋势未来需求及发展趋势 面向未来,应构建“源-网-荷-储-算”一体化协调控制架构,通过融合可再生能源功率预测与算力负载预测,建立基于绿电友好性的算力调度模型,动态匹配任务类型与可用清洁电力资源。在此基础上,结合碳价、电价、负荷调节能力等多源信号,引导算力任务向新能源出力高峰区域与时段迁移,通过算力任务的集中调度提升可再生能源的即使消纳水平,同时推动算力基础设施向绿色、低碳、高效方向演进,助力构建新型电力系统与智能算力网络深度融合的发展新格局。3.2 电随算用,满足算力新负荷需求电随算用,满足算力新负荷需求 在新型电力系统构建和“东数西算”工程加快推进的背景下,我第九届未来网络发展大会白皮书算电协同技术白皮书 30 国算力基础设施正逐步向风光资源富集、绿电占比高的区域集聚。为提升可再生能源本地消纳能力,实现绿色能源与数字算力的融合应用,“电驱算”调度机制应运而生。该机制通过可再生能源侧的主动感知捕捉可再生能源的出力波动,引导可延迟算力任务的调度决策与适时启动,有效促进新能源出力与算力负荷的动态耦合,成为推动源-荷协同、促进绿电增值的重要路径。表 3-2 电随算调应用实例表 序号序号 项目项目 位置位置 1 美国德州“ERCO”弹性算力电网 美国得克萨斯州 2 冰岛地热-算力协同系统 冰岛雷克雅内斯半岛 3 深圳5G 基站 虚拟电厂项目 广东深圳 4 青海绿电 算力一体化示范区 青海海南自治州(1)发展特点发展特点 当前当前“电驱算电驱算”应用仍面临协同能力不足的问题。应用仍面临协同能力不足的问题。其主要问题有以下三个方面:一方面,新能源出力与算力任务间歇的维度不一致。新能源出力的间歇性与算力业务运行的连续性存在时序不匹配问题,需依赖高精度的负荷与资源预测模型;另一方面,算力任务迁移约束复杂。算力任务的跨域迁移涉及算力调度、链路传输与业务可靠性等多重约束,系统响应能力和成本控制能力要求较高;最后,电力系统与算力系统的协同缺乏一致性协议。电力系统与算力系统间缺乏统一的资源编排接口与调度协议,统一调度还存在困难,制约协同机制的高效落地。第九届未来网络发展大会白皮书算电协同技术白皮书 31 (2)应用现状应用现状 在东部 AI 算力枢纽与“灵活电力池”的动态适配场景中,东部沿海地区作为数字经济核心区,算力需求巨大,但面临算力负荷波动剧烈、电力保供压力大及绿电替代需求迫切等挑战。为此,当地构建“灵活电力池”,整合多元电力资源,围绕算力负荷变化进行动态调度。在常规算力时段,以稳定负荷为主,电力池优先启用基荷电源并辅以调节电源,维持供电稳定;算力高峰时段,启动全量电源协同并启用需求响应备用,保障电力供应不缺口、不波动;算力低谷时段,削减可调电源出力,启用低成本绿电,同时让储能系统充电,降低用电成本。这一模式的有效运作依托于关键支撑技术体系:首先,算力负荷预测系统基于人工智能算法与大数据分析,可对算力集群的运行状态、任务调度及能源消耗进行分钟级动态预测,误差率控制在 3%以内;其次,协同调度技术通过建立电力算力资源双维度模型,实现风光储等新能源、电网侧可调节负荷与数据中心算力需求的智能匹配,提升资源利用效率超 20%;此外应用该模式通过动态算力调度与电力供应的精准匹配,将算力系统的平均故障间隔时间提升 40%,关键业务连续性保障能力显著增强;依托智能负荷预测算法,电力资源利用率从68%提升至 85%,有效降低电网峰谷差;在绿电消纳方面,实现年度绿电占比达 75%,超额完成区域碳减排目标,经测算每年可减少二氧化碳排放超 12 万吨;同时,通过错峰用电策略与电力市场交易优化,企业综合用电成本同比下降 18%,实现经济效益与环境效益的双重第九届未来网络发展大会白皮书算电协同技术白皮书 32 突破。(3)未来需求及发展趋势未来需求及发展趋势 未来,构建面向“电驱算”场景的一体化感知与协同调度平台,是实现可再生能源柔性负荷引导的关键路径。该平台应集成新能源出力预测、算力任务特性度量、迁移成本评估等核心能力,通过发布“算力调度时间窗口”,驱动 AI 训练、数据分析等可调任务向绿电富集时段和区域主动靠拢。同时,结合实时电价、碳排放强度和系统负荷水平,实现多维调度信号融合控制,推动绿电高效利用与算力系统绿色运行的深度耦合。第九届未来网络发展大会白皮书算电协同技术白皮书 33 四、算电协同生态建设四、算电协同生态建设 在“双碳”战略、数字中国与新型电力系统共同推动的背景下,算力基础设施作为新型生产力的关键支撑,其运行能耗与电力系统间的互动关系日益紧密。构建算电协同生态,已成为推动产业绿色升级和技术创新融合发展的重要抓手。“十五五”期间,我国需统筹考虑算力侧与电力侧协同规划、智能响应与绿色低碳路径,实现从单点优化向系统性协同升级,形成全产业链高质量发展新格局。4.14.1 电力侧发展与绿色转型电力侧发展与绿色转型 4.1.14.1.1 优化可再生能源供给体系优化可再生能源供给体系 随着人工智能、大数据、云计算等新兴技术的快速发展,算力基础设施呈现出高密度部署、高能耗运行的特征,电力消耗量逐年攀升,绿色低碳的能源供给能力正成为算力可持续发展的基础保障6。构建以可再生能源为主体的电力供给体系,不仅是响应国家“双碳”战略的重要举措,更是推动算力产业绿色转型、实现经济社会高质量发展的必然要求。一方面,应加快构建以风电、光伏、水电、生物质能等为核心的多元化清洁能源生产体系,推动可再生能源从集中式开发向分布式融合转变。在资源禀赋优越的西部地区和风光富集的边缘区域,应加快推进大型风光基地建设,配套建设高可靠性输电通道,为全国算力节点提供稳定可控的绿色电力。同时,在东部用电负荷密集地区,可因地制宜发展分布式光伏、建筑光伏一体化等新型供电方式,实现“就第九届未来网络发展大会白皮书算电协同技术白皮书 34 地发电、就近使用”,有效缓解电力调配压力。另一方面,应以“源-网-荷-储”协同发展为主线,构建柔性、高效、智能的新型电力系统。具体而言,在“源”端推动风光等新能源灵活接入和输出平滑化,在“网”端加快构建坚强智能电网与跨区互联通道,在“荷”端优化算力负荷调度方式、提升响应能力,在“储”端加快部署新型储能设施如锂电池、液流电池、氢储能等,实现多时空尺度下的电力调节与冗余释放,增强算力与电力之间的耦合度和协同度。图 4-1 能源供给示意图 此外,应重点支持在清洁能源资源富集区建设“零碳园区”或“可再生能源直供型”算力集群。例如在青海、内蒙古、新疆等地,依托光伏、风电优势,打造清洁能源供电的智算中心或超算基地,实现算力资源“就近绿色供给”,减少长距离输电损耗,提高能源利用效率7。在这类示范园区中,可探索能源互联网、园区级微电网、源荷储一体化系统的深度融合,为全国算力与能源协同发展提供先行先试样板。同时,还应注重绿色电力的市场机制创新。通过推动绿电交易、电力现货交易与算力调度的联动机制,建立算力负载与绿色电力之间第九届未来网络发展大会白皮书算电协同技术白皮书 35 的实时动态映射关系,使算力设施能够依据绿电价格变化灵活调整任务排布与能耗策略,实现资源与环境效益的最优协同。绿色电力消费凭证(GEC)和碳配额制度也应逐步引入算力行业,使算力企业通过市场化手段实现低碳运营、环境友好型发展的目标。4.1.24.1.2 完善供需动态平衡机制完善供需动态平衡机制 供需平衡的可持续运行需市场化调节机制支持,应完善电力现货市场和辅助服务市场,建立与算力用电行为挂钩的价格信号传导机制,引导算力基础设施依据电力系统运行状态灵活调整运行策略。政策引导方面,可通过绿色电价、差异化电费、碳积分奖励等方式,推动算力设施在非高峰时段运行或优先使用清洁能源,提高系统调节响应积极性。感知与控制系统能力提升也是关键,构建面向电力与算力融合的统一调控平台,实现电力供需态势、算力资源分布及响应措施的全局感知与统一调度。在关键节点部署智能计量和快速控制装置,实现微秒级数据采集与指令响应,提升调度响应精度和系统协同效率。推动相关标准与制度制定完善,明确算力设施参与电力系统调节的技术规范、数据格式和接口协议,建立统一规则体系。构建多方协同工作机制,推动传统供给中心平衡体系向负荷柔性与供需协同的动态调节机制转型,促进绿色、稳定、高效的能源-算力融合生态建设。4.1.34.1.3 提升算力产业支撑能力提升算力产业支撑能力 对算力产业的支撑能力方面,算力作为新质生产力的重要体现,能源作为其运行的基础资源,其供给质量、调配效率和绿色属性直接第九届未来网络发展大会白皮书算电协同技术白皮书 36 影响产业整体发展质量。实现算力基础设施的集约化、高可靠和低碳运行,需系统构建适应算力产业需求的多维能源支撑能力。首先,提升能源供给的可靠性和适配性是保障算力系统稳定运行的前提。智算中心和超算节点对电力供给有高连续性和冗余性要求,应围绕重点区域建设高可靠、高负载电网接入体系,优化供电路径结构,增强电源冗余配置能力。配置区域级或站级储能系统,构建“主电源 储能 备电”三重保障模式,提高抗扰能力。为提升能源使用效率,引导算力产业开展能源精细化管理,通过建设能耗管理系统和能效监测终端,实现对机房负载、电源系统、冷却系统全流程能耗的数据采集和智能分析,推动 PUE 等核心指标持续优化9。探索负荷聚合与边缘调度机制,将边缘节点零散计算任务统一纳管,提升算力与电力资源协同调度能力,降低能耗冗余。构建绿色能源导向的能源接入体系,是算力行业低碳转型关键。应在风光资源富集区和沙漠荒漠等绿电潜力区域布局清洁能源直供算力集群示范项目,实现电源侧绿色化、负荷侧集约化和网络侧高效化协同。结合绿电消纳政策与市场机制,引导算力企业通过集中式绿电采购和可再生能源证书交易提高绿电使用比例。建立分类分级能源服务体系,针对不同算力场景(如超算中心、大规模云计算、边缘计算节点)设计差异化的供电保障方案,兼顾稳定性、经济性与绿色属性。最后,加强能源与算力产业技术标准和运维体系对接,推动绿色运维技术、智能监测预警与快速响应体系建设,提升系统整体运维效率和安全水平。通过构建高可靠、低碳、高效、智能的能源支撑体系,为算力基础设施提供坚实保障,助力构建绿色低碳第九届未来网络发展大会白皮书算电协同技术白皮书 37 的数字经济发展新生态。4.24.2 算力侧规划与能源协同算力侧规划与能源协同 4.2.14.2.1 规划与布局算力基础设施规划与布局算力基础设施 算力侧发展规划同样需紧密结合能源禀赋、通信网络布局及政策导向,推动算力资源与清洁能源基地协同布局,实现算力资源的合理分布和绿色高效运行。超算中心与智算中心需实现由东向西梯度转移,优化网络传输路径,提升算力资源全国平衡与调度效率。数据中心建设标准应强化绿色低碳指标,推动 PUE、WUE 等达到国际先进水平,积极推广液冷等节能技术10。边缘计算节点需结合分布式电源、储能和微电网建设,提升能源供给的灵活性和系统的鲁棒性。异构计算架构融合与资源池化平台建设,满足多样化业务对算力的动态分配需求。构建“中心-边缘-终端”三层协同体系,支持多样算力应用。加强标准化体系建设,推动算力资源接入与能效评估标准统一,提升算力绿色发展水平。此外,还需加强标准体系建设与技术体系对接,推动资源接入、能效评估、调度接口等关键环节的标准化、模块化,提升算力设施建设的通用性与兼容性。在政策层面,加快出台异构算力资源配置与绿色能耗评估导则,推动算力设施向高性能、可扩展、绿色低碳方向加速演进。通过上述多层次、系统化的基础设施规划与建设布局,将有力夯实算力产业发展的底座,支撑智能经济的快速发展,推动我国算力体第九届未来网络发展大会白皮书算电协同技术白皮书 38 系实现结构优化、效能提升与绿色转型的战略目标。4.2.24.2.2 构建算力构建算力-电力接口技术电力接口技术 随着大规模算力基础设施的不断建设,算力系统对电力系统的依赖愈加紧密。算力设施已不再是传统意义上的被动用能方,而逐步演变为具备柔性调节能力的负荷资源,在新型电力系统建设中具备积极作用。构建高效、标准化的电-算接口体系,是实现算力基础设施绿色运行与电网协同调节能力提升的关键环节。图 4-2 算力-电力接口技术示意图 当前,算力负载具备高度可编程性与运行时可控性,在任务调度、资源分配等环节具备较强的弹性,能够根据外部能耗信号动态调整运行状态。结合智能调度系统,可在不影响关键计算任务执行质量的前提下,释放出一定比例的调节能力,对应电网的负荷波动进行响应。通过构建具备时效性、电价联动性和能耗约束能力的运行策略,推动算力资源主动参与电力系统的频率控制、负荷平衡和需求响应,提升第九届未来网络发展大会白皮书算电协同技术白皮书 39 整体系统运行的稳定性与柔性。面向新型电力系统发展趋势,需要推动算力设施深度接入电力市场体系,在技术上打通两类系统间的接口屏障。为此,应建立覆盖监控、通信、调度等多维度的技术对接标准,确保算力平台能够实时接收电网负荷状态、价格信号和调控指令,并据此进行能耗调度与算力迁移。算力任务的批处理属性、低时效性容忍度等特点,使其具备成为可中断负荷的潜力,在负荷侧资源日益多样化的背景下,提供了一类全新的调节资源形态11。此外,在能源互联网和多能融合背景下,还需构建统一的算力负荷模型与运行行为描述机制,使电力系统能够识别并预判算力运行对供能系统的影响。例如,通过建立动态计算功耗曲线与任务类型映射关系,可实现算力负载在不同工况下对电网功率变化的预测响应,从而纳入系统级调控模型中。标准体系建设是推动算力设施参与电力市场交易和辅助服务的前提。应制定涵盖算力设备状态感知、任务调度接口、电量与功率反馈、响应确认机制等内容的互联协议,实现算力平台与电网调度平台之间的信息同步与控制闭环。配套数据安全与隐私保护机制,确保算力运行数据在调度过程中的可控、可审与合规使用。面向未来,应鼓励各类智算平台、边缘节点及数据中心运营方参与需求响应机制试点,在新能源占比高、电网调节能力薄弱的区域开展算力调节能力评估与验证。通过构建多类型算力节点响应特性数据库,建立典型场景下的调度机制,为形成统一的技术标准体系和市场第九届未来网络发展大会白皮书算电协同技术白皮书 40 交易机制提供基础支撑。通过推动算力系统从单一耗能载体向可调节负荷资源转变,构建完善的电算接口技术体系,将为新型电力系统注入新的柔性资源,有效提升能源使用效率,推动算网融合系统向低碳、智能、高效方向持续演进。4.34.3 平台侧建设与功能优化平台侧建设与功能优化 为实现绿色低碳发展目标,推动新型基础设施高质量建设,构建算电协同平台成为实现算力网络与电力系统高效融合的重要路径。当前,随着数据中心规模持续扩大和计算需求快速增长,算力设施的能耗问题日益突出,迫切需要构建以“网络运营商、算力服务商、电力能源企业”三方为核心的算电协同体系,实现资源高效调度与能耗动态控制。在此背景下,算电协同平台建设应围绕资源集约化、能耗优化和调度智能化三大核心目标展开,打通算力供需与电力供需之间的壁垒,推动算网与电网的深度融合。平台总体架构平台总体架构可划分为协同控制层、资源接入层以及数据与服务层。其中,协同控制层负责调度逻辑的统一与策略制定,涵盖算力资源与电力资源的协调控制机制。资源接入层实现不同来源的算力节点(如边缘、云端、终端)与电力资源(如传统电网、可再生能源、储能装置)的统一接入与管理。数据与服务层则汇聚平台运行状态、用电负载、算力任务以及碳排放数据,通过智能分析技术,支撑上层优化控制和动态决策。第九届未来网络发展大会白皮书算电协同技术白皮书 41 下表简要列出了平台架构的三层功能:表 4-1 平台架构功能表 层级层级 功能描述功能描述 协同控制层 统一调度策略制定,实时协调算力调度与能耗调配,实现最优资源匹配 资源接入层 对接多类异构算力和电力资源,保障平台资源可扩展性与可调控性 数据与服务层 提供任务预测、电力动态分析、碳排监测等数据支撑,赋能智能化平台运行 平台核心功能平台核心功能模块主要包括四个方面:一是算电资源映射模块,通过构建算力任务特征与用电曲线之间的对应关系,实现资源配置的精准化;二是多方协同调度模块,支撑网络运营商、算力服务商、电力能源企业的信息互通与策略联动,提升整体系统响应能力;三是碳排放监测与控制模块,借助传感与数据采集技术,实时掌握不同计算任务或节点的碳排放数据,并提供优化建议;四是基于市场机制的激励模块,引导用户或算力服务商在电力紧张时主动调整任务策略,或利用绿电资源以获取经济激励,从而推动绿色调度目标实现。算电协同平台在多个典型场景下展现出显著效益。例如在高能耗任务分流方面,平台可将非关键任务自动迁移至低碳或低电价区域执行,从而缓解本地电网压力并降低碳排放;在用能负荷响应场景中,平台结合电价波动或供需变化,动态调整算力任务执行顺序与节点分布,实现算电双赢;而在能源与计算资源联合规划场景下,平台还可依据区域算力布局与电力结构,形成城市级或园区级的绿色算力部署策略,提高资源利用率的同时支持区域能源系统平衡。具体场景与预期收益如下表所示:第九届未来网络发展大会白皮书算电协同技术白皮书 42 表 4-2 场景与预期收益说明表 应用场景应用场景 场景说明场景说明 预期效益预期效益 高能耗任务分流 将可延迟任务迁移至绿电丰富或电价低区域执行 降低碳排放与电网运行压力 用能负荷响应 根据电价或负荷预测动态调度算力资源 降低能耗成本,实现负荷平衡 联合资源规划 融合算力需求与区域电力结构制定部署策略 提高能效比,助力区域碳达峰 相关研究表明,算电协同平台能够显著提升资源利用效率,实现系统整体能耗降低 10 %8,同时增强算力系统的可持续运行能力。通过动态任务调度与电力响应机制的结合,平台实现了技术驱动下的碳减排目标,具备良好的可推广性。未来算电协同平台的持续发展应聚焦于三方面:首先,在标准制定方面,需构建统一的数据模型与资源接入接口,打通不同参与主体之间的技术壁垒;其次,在示范试点方面,应推动园区级、城市级的协同平台部署,验证关键技术与机制的可行性;第三,在激励机制设计方面,建议深化碳成本内部化手段,探索算电交易市场与碳交易机制的融合路径,以市场力量推动绿色算力交易行为的常态化与制度化。通过政策引导与技术创新双轮驱动,算电协同平台将在推动绿色低碳数字经济发展中发挥重要支撑作用。4.44.4 用户侧协同与服务创新用户侧协同与服务创新 4.4.14.4.1 推进需求侧响应模式推进需求侧响应模式 (1)算力弹性供给与电价联动机制 在当前以低碳目标驱动的算网能一体化交易体系中,传统以电力第九届未来网络发展大会白皮书算电协同技术白皮书 43 为中心的响应机制已难以支撑异构算力资源与多变电价环境下的高效协同调度。尤其是在算力任务灵活度提高、电价动态波动频繁的背景下,构建具备弹性调节能力的算力资源调度机制,并与电价联动成为实现系统优化的关键路径。算力弹性供给与电价联动机制本质上是一种将算力任务视作可调负荷的动态控制方式。系统根据实时电价波动,智能分析算力任务的调度优先级和延迟容忍性,在高电价阶段主动降低计算任务投入,或将非实时任务延后执行,以实现对电网负荷的柔性响应。同时,在低电价时段系统可调动大量待执行任务集中运行,提升能源使用效率并降低整体能耗成本。该机制不仅提升了算网系统的经济性,也为用户提供了绿色低碳的用算环境。通过将弹性调度能力嵌入算力平台核心控制逻辑中,系统可实时感知电价变化并执行任务迁移策略,支撑算力资源与能源价格的协同演进,从而提升整体算网能系统的时空资源利用率。图 4-3.算力弹性供给与电价联动机制示意图(2)用户侧储能 算力资源聚合模式 随着用户侧储能设备的普及和能算融合趋势的增强,构建面向多资源协同的“储能 算力”聚合机制成为提升用户侧响应效率的重要方式。该模式通过在本地部署储能设备,并与算力服务节点形成深度耦合,实现用户负荷在能源和算力层面的双重可调。系统在电价高峰第九届未来网络发展大会白皮书算电协同技术白皮书 44 期调动储能释放能量支撑算力节点持续运行,避免因能耗成本过高而引发算力任务中断;而在电价低谷期,则集中调度大量算力任务运行,同时储能设备完成充电,形成良性的“能量蓄积-算力释放”循环。此外,在碳交易或绿色能源优先消纳等制度背景下,该模式也可将绿色能源优先匹配至具备高能效比的算力节点,从而优化任务的碳排放路径。在实际系统运行中,“储能 算力”聚合机制常通过本地能源管理系统或边缘智能平台完成,具备高响应性和良好的可扩展性。资源调度策略则需综合考虑任务延迟容忍度、设备能效、储能状态、电价趋势等多因素进行动态优化,以确保资源匹配效率与经济收益最大化。该模式有效推动用户从能源消费者转变为灵活调节参与者,同时也为构建基于负荷聚合与资源交易的算网能互动平台提供了坚实基础。4.4.24.4.2 创新算力能源交易模式创新算力能源交易模式 (1)虚拟电厂参与电力现货市场 在传统电力系统中,用户资源大多处于被动响应状态,缺乏对市场机制的主动适应能力。随着算力资源逐步具备调度性与市场交易属性,其与能源资源的融合也从辅助响应阶段进入到了正式交易阶段。算力能源交易模式即是在此背景下发展而来,通过构建面向市场化运行的资源交易体系,推动用户侧算力节点与电网侧现货市场、调度平台、综合能源管理系统实现直接联动。其中,“虚拟电厂参与电力现货市场”是最具代表性的机制形式之一12。算力节点作为新型可调负荷,其任务运行的时间性和空间性为电力系统调峰调频提供了巨大的柔性空间。通过接入虚拟电厂聚合平台,用户侧算力设备可根据市场第九届未来网络发展大会白皮书算电协同技术白皮书 45 电价信号提交可调负荷能力,并在电力现货市场中申报参与出清。系统可根据节点的历史运行曲线、服务等级、能耗特性等参数,对其调度能力进行动态评估与量化,形成可交易的负荷资源。图 4-4 算力能源交易模式图 在调度过程中,虚拟电厂平台作为中介聚合方,承担起算力资源的预测、管理与交易撮合功能。一方面,它能够将多个用户侧小型算力节点整合为具有规模效应的调节单元,以提高其市场议价能力;另一方面,通过嵌入区块链技术与智能合约协议,可实现交易过程的可验证与可追溯,确保算力任务调整的执行性与清结算的准确性。当电网侧发生负荷激增、频率波动或新能源出力波动时,系统即可调用这些具备“虚负荷”属性的算力节点进行即时卸载或迁移,以实现系统稳定性的快速恢复。这种交易模式打破了传统供需两端的刚性匹配边界,为算力市场与能源市场的融合提供了落地通道,也为用户侧资源价值释放创造了全新路径。(2)能算一体化综合能源服务 在更为集成化的服务场景中,面向高等级负载聚集区域和绿色用能需求强烈的用户,构建“能算一体化综合能源服务”模式已成为当前系统创新的重要方向。该模式以算力调度平台为核心控制引擎,以储能设备、分布式可再生能源与区域电网为资源支撑,通过统一的资第九届未来网络发展大会白皮书算电协同技术白皮书 46 源调配策略与能碳管理模型,实现从任务接收到能源调度、碳排跟踪、交易结算的全过程闭环控制。在这一体系中,算力服务不再孤立存在,而是作为综合能源服务的一部分,为用户提供低碳计算、绿色调度、能源优化等复合型解决方案。系统可根据用户任务的计算量、电价预测曲线与碳强度变化趋势,动态选择最佳的算力节点与能源路径,并通过智能合约完成服务部署与清算结算。用户不仅能够获得算力服务,还能同步享受绿色能源激励、电力成本优化及碳足迹减免等附加收益。第九届未来网络发展大会白皮书算电协同技术白皮书 47 五五、技术挑战与未来方向技术挑战与未来方向 在充分认识算电协同发展背景和应用场景的基础上,本章将深入剖析当前面临的核心技术挑战,并前瞻性地提出未来发展方向。通过“挑战-方向”的对应分析,为算电协同的技术创新和产业推进提供系统性指导。5.1 技术挑战技术挑战 5.1.1 系统复杂性,算电协同的纳管挑战系统复杂性,算电协同的纳管挑战 算电协同的一大核心技术挑战在于系统复杂性的指数级增长,这主要体现在跨层协同与异构资源整合的双重难题上。首先,系统需要实现从底层硬件到上层电网的多维度深度耦合:在硬件层面,需协调芯片级(如异构计算单元的动态电压频率调节)、服务器级(如液冷机柜的功耗-散热联动)与电网级(如需求响应信号)的实时交互;在软件层面,则要求调度算法能同时解析计算任务 QoS 需求、电力市场价格信号和碳排放约束等多目标参数。这种跨物理域、跨时间尺度的协同设计,使得传统分层优化方法面临严峻挑战。其次,在资源整合维度,云-边-端构成的异构算力网络呈现出三高三低特征高异构性(从云端 FPGA 到终端传感器)、高动态性(边缘节点随时离网)、高不确定性(可再生能源波动),但同时又存在低耦合度(缺乏统一接口)、低可见性(局部资源状态不可观测)和低时效性(广域通信延迟可能达百毫秒级)。这种矛盾特性使得全局资源协调如同在时变拓扑网络上求解动态博弈问题,需要开发新型数字孪生平台来实第九届未来网络发展大会白皮书算电协同技术白皮书 48 现“算力-电力-网络”三者的联合状态估计与预测性控制。5.1.2 资源动态匹配,协同控制的核心难题资源动态匹配,协同控制的核心难题 算电协同的另一大核心技术挑战在于资源动态匹配难题,这主要体现在两个方面:首先,算力需求的动态波动与电力供应的不稳定性(尤其是可再生能源的间歇性特征)需要实现实时精准平衡。由于算力负载往往呈现突发性和时变特性,而风电、光伏等清洁能源的输出受自然条件影响具有显著不确定性,二者在时空尺度上的动态匹配需要构建高响应的协同调控机制。其次,该问题本质上是一个多目标优化难题,需在性能(如计算任务完成率)、服务质量(如端到端延迟)和能源效率(如 PUE 指标)之间实现动态权衡。这要求设计具备在线学习能力的智能调度算法,既要考虑算力集群的异构性(如CPU/GPU 的能效比差异),又要兼顾电力系统的运行约束(如电网调频需求),最终形成跨域资源的最优分配策略。5.1.3 能效瓶颈,电力侧的关键制约能效瓶颈,电力侧的关键制约 算电协同面临的第三大核心技术挑战是能效瓶颈问题,这主要体现在集中式与分布式计算场景的双重制约。在集中式高密度计算场景(如超大规模数据中心)中,随着算力密度的持续提升,散热与供电效率逐渐逼近物理极限传统风冷散热已难以满足高性能计算芯片的热管理需求,而电力转换与传输损耗在总能耗中的占比显著增加,亟需通过液冷技术、高压直流供电等创新方案突破能效天花板。与此同时,在分布式边缘计算场景下,海量边缘节点的能源管理效率低下第九届未来网络发展大会白皮书算电协同技术白皮书 49 问题日益凸显:由于边缘设备通常部署在供电条件受限的环境中(如基站、变电站),其能源供给往往依赖本地化可再生能源或电池储能,而分布式节点的异构性、间歇性工作模式以及缺乏全局协同调度机制,导致整体能源利用率低下。这种集中式与分布式的双重能效挑战,要求构建跨层级的能效优化体系,从芯片级(如异构计算架构)、设施级(如智能冷却系统)到系统级(如算力-电力联合调度)实现全栈创新。5.1.4 安全与可靠性,交易机制的基础挑战安全与可靠性,交易机制的基础挑战 算电协同的第四大核心技术挑战聚焦于安全与可靠性的双重保障问题,这涉及物理层和网络层的复合风险。在物理可靠性层面,电力系统的固有波动特性(如电压暂降、频率闪变等电能质量问题)与计算设备的精密运行需求存在根本性矛盾毫秒级的电压扰动可能导致服务器集群的批量宕机,而可再生能源的大规模接入进一步加剧了电网的不确定性。这要求构建具备“算力-电力”状态感知能力的韧性架构,通过智能 UPS(不间断电源)、分布式储能与算力迁移的协同响应,实现从“供电中断耐受”到“供电质量敏感”的可靠性升级。在网络安全性维度,算电融合显著扩大了系统攻击面:一方面,计算侧的数据隐私可能通过电力侧信息(如功耗指纹)被逆向推导;另一方面,电网关键控制信号可能因算力平台的漏洞遭受供应链攻击。这种“数据流”与“电力流”的深度耦合,使得传统孤立防护体系失效,亟需发展基于零信任架构的跨域安全防护技术,包括可信执行环境(TEE)与电力物理隔离装置的联合部署、以及面向算电协同的入第九届未来网络发展大会白皮书算电协同技术白皮书 50 侵检测系统(IDS)该系统需能同时识别 APT 组织对服务器的网络渗透和针对变电站的虚假数据注入攻击。这种安全可靠性的多维保障,成为算电系统能否规模应用的关键前提。本节从系统复杂性、资源匹配、能效瓶颈和安全可靠性四个维度,全面分析了算电协同面临的技术挑战,为后续发展方向的确立提供了问题导向。5.2 未来发展方向未来发展方向 面对这些挑战,需要从技术创新、系统架构和市场机制等多个层面寻求突破,以下将具体阐述五大未来发展方向。5.2.1 智能调度技术从单目标优化迈向多模态协同,推动算力网络向智能调度技术从单目标优化迈向多模态协同,推动算力网络向全域资源动态匹配演进全域资源动态匹配演进 未来算电协同的重要发展方向在于智能调度与优化技术的突破,其核心在于利用人工智能和数字孪生技术实现电力与算力资源的高效动态匹配。一方面,基于强化学习、联邦学习等 AI 算法的预测性调度系统将成为关键,能够实时分析算力需求波动(如突发性 AI 训练任务)与可再生能源发电(如风电、光伏的间歇性输出)的时空关联性,并动态优化资源分配策略。例如,通过数字孪生构建“算力-电力”虚拟映射,结合强化学习的在线训练能力,可在满足计算任务 SLA(服务等级协议)的同时,最大化清洁能源消纳比例。另一方面,随着分布式能源(如屋顶光伏、分布式储能)和边缘计算节点的广泛部署,本地化协同将成为重要趋势。通过设计“光储算”一体化微电网第九届未来网络发展大会白皮书算电协同技术白皮书 51 架构,使边缘数据中心能够根据本地可再生能源发电情况动态调整计算负载(如延迟容忍型任务的错峰执行),甚至通过算力节点的灵活启停参与电网需求响应,实现“计算即负荷”的能源互联网新范式。这一方向的发展将显著提升算电系统的经济性和可持续性,但也面临分布式系统状态估计精度、多主体博弈均衡等关键技术挑战。5.2.2 绿色计算技术从能效提升转向全生命周期减碳,零碳数据中心绿色计算技术从能效提升转向全生命周期减碳,零碳数据中心架构加速普及架构加速普及 未来算电协同的另一关键发展方向是绿色计算与能源创新的深度融合,其核心在于通过跨领域技术突破实现算力基础设施的能效革命与清洁化转型。在硬件能效维度,液冷/浸没式散热技术将逐步替代传统风冷方案,通过相变材料与微通道设计的结合,使 PUE(电能使用效率)突破 1.05 的理论极限;同时,存算一体芯片、近阈值电压计算等低功耗架构的成熟,将重构计算设备的能耗范式例如基于3D 堆叠存储器的存内计算可减少 90%的数据搬运能耗。在供电架构层面,高压直流配电与固态变压器的规模化应用,有望将电能转换损耗从当前的 15%降至 5%以下,形成“芯片级-机柜级-园区级”的三级高效供能体系。在能源协同维度,面向算电协同的可再生能源消纳技术将成为突破重点:一方面,通过波动性适配算法(如基于 LSTM-GAN 混合模型的发电出力预测),使计算负载曲线主动追踪光伏/风电的波动特性,实现“算力跟随电力”的动态调度;另一方面,探索算力设施作为电网柔性负载的新模式如数据中心集群通过调节批处理任务时序第九届未来网络发展大会白皮书算电协同技术白皮书 52 参与电网调频,或利用异构计算单元(CPU/GPU/FPGA)的差异化能效特性构建虚拟储能池。这类创新不仅需要突破跨域建模技术(如统一量化计算任务与电力调节的价值当量),还需建立算力-电力市场的联合出清机制。最终,通过“硬件能效革新 系统协同优化”的双轮驱动,推动算电系统迈向“零碳计算”的新纪元。5.2.3 边缘计算与微电网从独立部署走向深度耦合,构建区域性能电边缘计算与微电网从独立部署走向深度耦合,构建区域性能电自平衡单元自平衡单元 未来算电协同的重要演进方向在于边缘计算与微电网的深度耦合,这将重塑分布式算力与能源系统的协同范式。在架构层面,边缘节点将演变为“算力-电力双枢纽”,通过集成分布式能源控制器(DERMS)与算力调度器,实现区域内计算负载与可再生能源的闭环优化例如 5G 基站搭载“光伏 储能系统”时,可基于业务流量预测动态调节边缘服务器的供电模式,使 80%以上的计算需求由本地绿电直接支撑。在服务能力维度,这种融合创造了“能源自洽型边缘计算”新形态,通过构建细胞化算电单元(Cell-based Computing-Power Grid),既能保障自动驾驶、工业 AR 等场景的毫秒级响应,又可实现区域能源的 90%以上自给率。在系统韧性方面,面向算力突发的微电网弹性设计成为关键突破点:一方面采用“异构储能矩阵”架构(如飞轮 锂电池 超级电容混合储能),通过多时间尺度能量缓冲匹配计算负载的秒级至小时级波动;另一方面开发“算力感知型保护系统”,当边缘数据中心突发热点事件(如大型模型推理请求激增)时,可智能触发微电网的孤岛运第九届未来网络发展大会白皮书算电协同技术白皮书 53 行模式,并优先保障 GPU 集群的供电质量。这种深度协同需要攻克两大技术瓶颈:一是建立计算任务 QoS 与电力系统稳定性指标的跨域等价模型,二是开发支持 10 万级边缘节点协同的分布式共识算法。最终形成的“边缘算力微电网”生态,将实现从“电力支撑计算”到“算电共生”的范式跃迁。5.2.4 政策体系从单一激励升级为多维生态构建,算力政策体系从单一激励升级为多维生态构建,算力-电力协同治电力协同治理框架初步成型理框架初步成型 未来算电协同的可持续发展离不开政策与生态体系的系统性构建,这需要从标准体系与市场机制两个维度进行突破。在标准化建设方面,亟需建立跨行业的融合性技术标准:一方面需制定算力碳足迹的精准计量规范,统一量化从芯片指令集到数据中心集群的碳排放当量(如基于 PUE 与碳强度指数的动态折算方法);另一方面要设计算电协同接口协议,涵盖电力需求响应信号与计算任务优先级的映射规则、异构算力资源的电网调频能力认证等。例如,通过 IEEE 与 IEC联合工作组推动 算力-电力互操作白皮书,解决当前“计算无碳标、电力无算力”的双轨制困境。在市场机制创新维度,算力与电力资源的市场化交易模式将成为关键探索方向:一是构建算力可调节容量市场,允许云服务商将闲置算力(如夜间 GPU 集群)以虚拟储能形式参与电力辅助服务交易;二是试点算电联合出清机制,在电力现货市场中引入计算任务延迟容忍度作为报价参数,形成“算力需求侧响应”的新型市场品种。这类创新需要政策端突破现有行业壁垒如允许数据中心运营商获取第九届未来网络发展大会白皮书算电协同技术白皮书 54 售电牌照,或制定算力负荷聚合商的准入规范。最终通过“标准牵引 市场驱动”的双轮机制,培育出涵盖设备商、运营商、交易平台的算电协同生态系统,实现从技术融合到商业闭环的跨越。5.2.5 量子计算与量子计算与 AI 大模型赋能调度系统,突破传统优化算法的算大模型赋能调度系统,突破传统优化算法的算力瓶颈力瓶颈 未来算电协同的创新发展还将深度依赖前沿技术的融合应用,特别是在可信交易与复杂优化两大关键领域。在能源-算力交易方面,区块链技术的去中心化协作能力将重构市场信任机制通过部署智能合约驱动的交易引擎,可实现分布式算力资源(如边缘节点闲置CPU 周期)与微电网绿电的原子级交易:例如基于 Hyperledger Fabric构建的联盟链平台,能够自动执行“发电预测-算力预约-绿电交割-碳迹追溯”的全流程,在保证交易透明性的同时将结算延迟压缩至亚秒级。更值得关注的是,区块链与物联网的融合将催生算力资源证券化新模式,使 GPU 算力、储能容量等抽象资源转化为可拆分交易的数字资产。在优化计算领域,量子计算的革命性潜力有望突破传统算力瓶颈:一方面,量子退火算法可高效求解百万级变量的“算力-电力”联合调度问题,在多项式时间内完成传统超算需数小时运算的 NP难问题(如含随机新能源出力的鲁棒优化);另一方面,量子机器学习将赋能跨域预测模型,通过量子神经网络同时处理电力负荷曲线与算力需求图谱的万亿级关联特征。当前需重点突破量子-经典混合计算架构,开发适配 NISQ(含噪声中等规模量子)设备的协同优化算法,为算电系第九届未来网络发展大会白皮书算电协同技术白皮书 55 统提供“量子优越性”加持。这两大技术的融合应用,将推动算电协同从“资源耦合”迈向“价值共生”的新阶段。本章构建了完整的“挑战-对策”分析框架,系统性地提出了算电协同的发展路径。智能调度技术解决资源匹配难题,绿色计算技术突破能效瓶颈,边缘计算与微电网耦合应对系统复杂性,政策体系构建保障安全可靠性,量子计算与 AI 大模型则为全面突破提供前沿支撑。这些方向相互关联、互为支撑,共同推动算电协同向更高效、更绿色、更智能的方向发展。5.3 算力电力协同发展建议算力电力协同发展建议 (一)强化政策支撑与体制机制创新(一)强化政策支撑与体制机制创新 当前我国算电协同发展仍处于关键起步期,亟需完善顶层设计与政策保障体系。建议由国家相关部委组织建立跨部门协调机制,制定算力电力协同发展三年行动计划,明确 2025-2030 年分阶段实施路径。重点在“东数西算”工程八大枢纽节点推行算力-绿电绑定政策,将新建数据中心绿电使用比例提升至 80%以上。同时创新资金支持模式,设立国家级算电协同发展基金,采用财政补贴与市场化融资相结合的方式,对符合 PUE1.25、绿电占比50%的示范项目给予最高 30%的建设补贴,并支持算力负荷参与电力辅助服务市场交易。(二)构建标准化技术体系与创新生态(二)构建标准化技术体系与创新生态 技术标准体系的统一是算电协同发展的基础保障。建议由电促会、信通院等机构牵头,制定算力-电力协同接口技术规范,重点解决第九届未来网络发展大会白皮书算电协同技术白皮书 56 三大关键问题:建立算力可调节容量计量标准,明确 1 万 GPU 时相当于 2MWh 电网调节能力的折算方法;统一电力-算力协同调度协议,基于图 2-1 所示的功能架构实现跨系统互联互通;完善碳排放动态折算体系,开发基于实时碳足迹因子的精准计量模型。在技术创新方面,应重点突破异构算力动态纳管技术、新能源出力与算力负载联合预测算法等核心难题,将预测误差控制在 5%以内,同时加快区块链技术在算电交易平台中的应用,实现绿电溯源与碳足迹全生命周期追踪。(三)打造示范工程与产业协同新模式(三)打造示范工程与产业协同新模式 选择青海、内蒙古等新能源富集区域建设 3-5 个国家级“零碳算力示范区”,形成可复制推广的典型经验。示范工程应实现三大目标:通过算力负荷就地消纳风光电力,参照青海柴达木 100%绿电中心的成功案例;规模化应用液冷散热与余热回收技术,将 PUE 控制在 1.1以下;提升算力参与电网调频的响应能力,确保响应时间小于 200 毫秒。在商业模式创新方面,重点培育“虚拟电厂 算力聚合商”新型业态,探索电力-算力-碳权捆绑交易机制,形成多元价值变现渠道。(四)健全评估体系与安全保障机制(四)健全评估体系与安全保障机制 建立科学的算电协同度评价指标体系(SEI),从能源匹配度、调度协同性、经济效益、技术创新和生态效益五个维度开展动态评估。其中能源匹配度重点考核绿电占比与新能源消纳率指标,权重设为30%;调度协同性主要评估响应速度与任务迁移成功率,占 25%权重;经济效益关注度电成本与碳减排收益,占 20%权重。在安全保障方面,构建“电力-算力”融合防护体系,电力侧部署量子加密通信设备,算第九届未来网络发展大会白皮书算电协同技术白皮书 57 力侧建立 TEE 可信执行环境,协同层开发跨域入侵检测系统,形成三位一体的安全防护网络。通过政策引导、标准先行、示范带动、评价保障的系统推进策略,最终实现比特驱动瓦特,瓦特赋能比特的协同发展愿景,预计到 2030 年带动相关产业规模突破万亿元。第九届未来网络发展大会白皮书算电协同技术白皮书 58 参考文献参考文献 1 郭力争,张翼飞,赵曙光.数据中心环境下能耗性能感知的优化方法J.北京邮电大学学报,2015,38(s1):72.2 熊伟,李兵.云计算环境下基于能耗感知的弹性资源管理机制J.四川大学学报(工程科学版),2015,47(2):112-116.3 罗亮,吴文峻,张飞.面向云计算数据中心的能耗建模方法J.软件学报,2014,25(7):1371-1387.4 Rossi M,Brunelli D.Forecasting data centers power consumption with the Holt-Winters methodC/2015 IEEE Workshop on Environmental,Energy,and Structural Monitoring Systems(EESMS)Proceedings.IEEE,2015:210-214.5 Smpokos G,Elshatshat M A,Lioumpas A,et al.On the energy consumption forecasting of data centers based on weather conditions:Remote sensing and machine learning approachC/2018 11th International Symposium on Communication Systems,Networks&Digital Signal Processing(CSNDSP).IEEE,2018:1-6.6 工业和信息化部.数据中心绿色低碳发展行动计划EB/OL.2021.7 国家能源局.2023 年可再生能源并网运行情况EB/OL.2024-01-25.8 国家电网公司能源研究院.算力设施与电力系统融合研究报告(2023)R.9 中国电子节能技术协会.中国绿色数据中心发展白皮书(2023)R.10 Uptime Institute.Global Data Center Survey 2023R.11 刘志刚,刘宝琛.算力资源柔性调度研究综述J.电力系统保护与控制,2022,50(14):174-183.12 国家发展改革委,国家能源局.关于加快推动新型电力系统发第九届未来网络发展大会白皮书算电协同技术白皮书 59 展的指导意见EB/OL.2021.

    发布时间2025-08-22 66页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • Telenor IoT:2025物联网连接技术指南(15页).pdf

    本报告由Telenor IoT与Analysys Mason联合制作2025版物联网连接技术指南所有图表的著作权均归Telenor IoT和Analysys Mason 2025所有。保留所有权利。TELENOR IoT|物联网连接技术|21摘要32序言43蜂窝物联网技术概览54蜂窝物联网技术的全球部署现状74.12G/3G网络关闭74.24G的主导地位与生命周期84.35G RedCap的兴起与未来部署展望94.4非地面网络技术在物联网中的应用115不同蜂窝物联网技术的典型应用场景126Telenor IoT的洞察与建议14目录TELENOR IoT|物联网连接技术|3选择合适的连接技术对于公司业务的长期平稳发展至关重要。如今,随着物联网技术不断迭代创新,其复杂性也随之提高。为您的业务场景匹配最适合的连接技术可能并非易事。本指南既适用于已经部署物联网解决方案的企业,也适用于正在规划或评估新物联网项目的公司。在物流、制造、公用事业和交通运输等领域,稳定的网络连接尤为关键,因为即使是短时间断网也可能带来严重后果。随着全球范围内2G和3G网络逐步淘汰以及新技术迅速涌现,着眼当前需求和未来发展做出明智的决策比以往任何时候都更为重要。在接下来的章节中,我们将为您简要介绍当今最重要的蜂窝物联网技术,涵盖成熟和新兴的技术,包括2G、3G、4G、5G以及非地面网络(NTN)。我们使用来自Analysys Mason和Telenor IoT的数据,将从覆盖范围、时延、能效和全球部署现状四个维度对每种技术进行评估,帮助您做出明智的选择。要点概述如下:4G网络的可靠性和生命周期:4G是当前应用最广泛且在全球范围内可接入的物联网连接方案,并有望在未来十年内继续保持这一地位,为多种物联网应用场合提供稳定的性能和覆盖保障。对5G RedCap(精简版5G)的审慎预期:5G RedCap填补了低功耗与高性能物联网应用场景之间的空白,但其普及程度取决于5G SA(独立组网)网络的部署进度,而当前该网络建设仍处于早期阶段。5G RedCap的更广泛部署可能要在2030年前后才能实现。对非地面网络持谨慎乐观态度:基于卫星的物联网技术可通过卫星直接连接设备,将覆盖范围扩展至偏远地区。部分解决方案通过运营商合作复用4G频谱,另一些则是在专用卫星频段上使用NB-loT技术。然而,受监管审批、频谱资源分配以及技术成熟度等因素影响,该技术的推广应用将呈现分阶段、渐进式的特点。通过阅读本文,企业将能清楚了解当前及未来的物联网技术选择,从而制定与市场实际发展趋势相契合的战略投资决策。例如,目前正部署或升级物联网解决方案的企业可采用已被验证的成熟技术(如LTE Cat-1和LTE-M),而预先在方案中规划5G RedCap与非地面网络,则有助于确保其物联网战略的未来适应性。1.摘要TELENOR IoT|物联网连接技术|4本指南在Telenor IoT 2023版 连接技术报告 的基础上全面更新,主要针对企业在物联网应用中面临的以下三种情况:2G和3G网络逐步淘汰;优化或扩展现有的4G物联网项目;为新的物联网项目部署评估连接技术方案。上述每一种情况都可能伴随着服务中断、集成复杂性和潜在成本超支等风险。在接下来的章节,我们将:概述蜂窝物联网的关键技术类型;展示各项技术的全球部署现状;分析常见物联网应用场景的适用技术;提供规划和部署解决方案的实用建议。我们希望为您提供必要的背景信息和具体细节,以帮助您做出明智的决策,从而规避和降低物联网项目实施过程中的潜在风险。物联网连接生态系统已迅速演变,从最初以消费者为中心的形态,经历围绕低功耗广域网(LPWA)技术的大力宣传,发展到如今成熟且多元化的格局。企业不仅依靠物联网来实现系统功能扩展,更将其视为提升效率、突显竞争优势和保障整体业务运营连续性的关键驱动力。2.序言TELENOR IoT|物联网连接技术|51来源:AnalysysMason2LTE-M的增强覆盖模式通过重复传输提升信号穿透能力,但相较于标准LTE,可能需以更高时延为代价。NB-IoT专为低数据量、低功耗物联网应用而设计,适用于需要室内深度覆盖或偏远地区的应用场景。其数据传输速率可达数十Kbps,并且能够在数秒钟内从休眠状态中唤醒,使得设备能够依靠单块电池运行多年。NB-IoT可以部署在现有的2G、4G LTE或5G SA网络上(只需稍作调整),目前也正在被适配用于卫星直连设备(D2D)的应用场景。另一种LPWA物联网连接技术LTE-M(Cat-M1)兼顾更高速度与更广覆盖。其吞吐量可达数百Kbps,时延与4G LTE相当2,支持设备在不同运营商网络之间无缝漫游,无需额外配置。LTE-M基于标准的4G基础设施构建,仅需进行网络配置更新即可启用,目前已在欧洲、北美、日本、韩国和澳大利亚等地广泛部署。蜂窝物联网技术方案在覆盖范围、传输速度、时延、电池寿命和全球覆盖能力上存在差异。权衡这些性能参数有助于您为具体应用场景选择最合适的解决方案(全球部署现状将在下一章节详细讨论)。图1:蜂窝物联网技术对比1技术覆盖范围吞吐量时延能效全球部署现状NB-IoT优(室内深度覆盖)20 Kbps高高在大多数地区可用,但其应用主要集中在中国LTE-M 优200 Kbps 低高覆盖大多数欧盟国家、美国和澳大利亚LTE Cat-1/Cat-1 bis良3 Mbps 低较高几乎普遍可用LTE Cat-4/4 良100 Mbps 低低几乎普遍可用5G NSA 良300 Mbps 非常低低覆盖大多数成熟市场5G SA 良300 Mbps 非常低低亚太地区及美国的主要运营商已实现规模化部署5G RedCap良10 Mbps 非常低高在美国、中国、科威特、(以及eRedCap)菲律宾处于早期发展阶段卫星(非地面网络)在偏远的户外区域10 Kbps-1 Mbps 高取决于解决方案仅限于试点市场网络覆盖良好注:以上列出的吞吐量和时延均为典型性能指标,而非峰值性能。3.蜂窝物联网技术概览TELENOR IoT|物联网连接技术|63 出于简化考虑,本文后续将使用Cat-1来统一指代常规Cat-1及其衍生版本Cat-1 bis。从网络角度来看,只要支持4G,就同时支持Cat-1和Cat-1 bis。Cat-1 bis与Cat-1的差异仅体现在设备侧。LTE Cat-1(及其衍生版本Cat-1 bis)可提供数兆比特每秒的吞吐量,兼具优异的时延性能,同时保持LTE级别的覆盖能力与可靠性。当应用场景需要比NB-loT或LTE-M更大带宽时,Cat-1可谓稳健之选。尽管其功耗相对较高,但Cat-1 bis通过使用单接收天线(而非LTE使用的双天线)降低了设备复杂度和能耗。此外,由于采用标准4G频段和成熟的漫游方案,Cat-1几乎在全球主要市场都普遍可用。LTE Cat-4/Cat-4 是标准的4G LTE连接,提供高达100 Mbps或更高(Cat-4 可超过300 Mbps)的数据吞吐量。该技术非常适合视频监控、批量遥测等数据密集型物联网应用场景,但其能耗高于LTE Cat-1及其他LPWA技术,在主要市场中几乎普遍可用。5G NSA(非独立组网)通过将5G无线接入网络与现有的4G核心网结合,实现了高吞吐量(300 Mbps以上)和低时延,并在许多成熟市场广泛支持漫游功能。而5G SA则需要部署全新的5G核心网,以支持原生5G功能。尽管已有超过150家运营商启动了5G SA部署,但除亚太地区和美国的主要运营商网络外,5G SA仍处于早期部署阶段。5G RedCap专为中等速率物联网场景量身定制,在吞吐量、时延和能效之间实现了良好平衡。eRedCap相较RedCap进一步降低了峰值速率和功耗,并降低了设备成本。但需要注意的是,RedCap与eRedCap的可用性完全依赖于5G SA的部署,而如前所述,目前5G SA的覆盖范围仍较为有限。非地面网络通过低轨(LEO)或地球同步轨道(GEO)卫星,在全球范围为海洋、航空和极地地区提供物联网覆盖。其吞吐量从数十千比特每秒(基于移动卫星频谱的NB-IoT技术)到数兆比特每秒(基于LTE直连设备技术)不等。时延范围则从数百毫秒(LEO)到超过一秒(GEO)。目前,早期的商用非地面网络服务正处于试用和概念验证阶段,预计在2025年之后,随着卫星星座建设、法规完善以及设备支持的成熟,将实现全面部署。4来源:Telenor IoTTELENOR IoT|物联网连接技术|7图2:2025年2G/3G网络关闭进程概览4即使在同一市场中,各运营商也有各自的关停计划。例如,在德国,沃达丰和德国电信分别计划在2030年底前和2028年中关闭2G网络,而O2尚未明确具体关停时间。因此,企业应积极关注各运营商具体的网络关闭时间表,而不是仅依赖于区域或国家层面的信息。网络关闭的实际过程通常是在多年内分阶段进行,而非一次性突然发生。高频段频谱会率先被重新利用,而低频段则会保留更长时间以保障基础的网络连接。尽管多模通信模块可以在主网络关闭时自动切换到其他网络层(例如从2G切换到4G),但实际应用中,固件限制或信号微弱可能导致连接问题,有时需要手动或远程重置设备,以便在备用网络上重新建立稳定连接。企业在规划物联网项目时,需要清晰了解2G/3G退网以及新兴连接技术的部署时间表。物联网设备通常会使用多年,中途更换成本高昂,因此了解网络关闭时间、当前覆盖范围以及未来的部署计划,有助于避免意外状况并实现平稳过渡。4.1 2G/3G网络关闭全球运营商正在逐步关闭2G和3G网络,以释放频谱资源用于4G和5G。如下方地图所示,不同地区的网络关闭时间表存在显著差异。2G与3G网络完全关闭3G完全关闭,2G仍可用或仅部分关闭2G完全关闭,3G仍可用或仅部分关闭2G与3G网络仍可用或仅部分关闭4.蜂窝物联网技术的全球部署现状TELENOR IoT|物联网连接技术|8为确保顺利过渡,建议企业持续关注运营商的时间安排,在备用网络上测试设备,并制定分阶段迁移计划,设定明确的阶段节点。包括Telenor IoT在内的一些运营商提供测试实验室,可用于验证迁移场景下设备的表现。4.2 4G的主导地位与生命周期自2017年推出以来,3GPP5标准定义的LPWA技术(即NB-IoT和LTE-M)实现了长足发展,但其在全球范围内的普及度并不均衡。中国在NB-IoT部署方面处于领先地位6,欧洲和北美则同时支持两种技术,少数市场仅提供LTE-M服务。由于漫游覆盖存在缺口,以及部分运营商退出NB-IoT服务(例如AT&T和NTT DoCoMo),目前NB-IoT和LTE-M尚未实现真正的全球覆盖。因此,计划在全球范围内采用上述LPWA技术部署物联网解决方案的企业,可能需要面对采用双模调制解调器、SIM配置文件和漫游管理等问题。在此背景下,LTE Cat-1成为低带宽物联网应用的通用选择。对于大多数测控应用场景而言,LTE Cat-1提供了足够的吞吐量和较低的时延。它还支持语音功能,并可在标准4G网络上实现无缝漫游。由于Cat-1无需特殊的网络配置,因此Cat-1设备几乎可在所有提供4G服务的市场上运行,并能轻松集成到全球设备群中。随着市场份额的增长和LTE Cat-1生态系统逐步成熟,高性价比将使其成为替代退役2G/3G设备的理想方案,帮助企业减少集成工作量,并提升网络覆盖一致性。展望2030年以后,大多数市场在2035年前全面关闭4G网络的可能性较低。在领先市场中,部分运营商可能会将中高频段频谱重新用于扩展5G及未来的6G服务,但低频段频谱(如900MHz)很可能会继续用于4G,为4G(包括Cat-1)设备提供广域和室内深度覆盖。2G网络在运营30多年后逐步关闭的例子已表明,频谱的再分配是一个渐进过程,网络关闭也历经多年、分阶段有序推进。我们预计4G也将遵循类似路径,在网络容量上逐步缩减,但在2035年之前,4G仍将是绝大多数企业物联网应用的骨干网络8。5 3GPP指第三代合作伙伴计划(Third Generation Partnership Project),该组织在蜂窝技术(涵盖2G、3G、4G和5G)的开发与标准化方面起着关键作用。6 NB-IoT在不同地区发展不均衡有多个原因。与LTE-M和5G RedCap不同,NB-IoT需要专用的180200kHz频谱,无法与其他业务共享(尽管可以部署在保护频段中以避免与其他业务冲突)。在中国,对NB-IoT芯片组的补贴推动了其广泛部署,而在西方市场,其商业价值不够突出。7 来源:Analysys Mason8需注意:即使某些运营商已经完成从4G核心网向5G SA核心网的迁移,只要4G无线网络仍在运行,5G核心网仍然可以处理NB-IoT、LTE-M和Cat-1的连接。图3:截至2025年4G和低功耗广域网技术的全球部署7两种低功耗广域网技术(NB-IoT与LTE-M)均已实现商用部署仅支持LTE-M仅支持NB-IoT暂无商用低功耗广域网服务,但LTE Cat-1或其他4G方案仍然可用无4G服务(注:上方所列其他市场均支持LTE Cat-1和Cat-4)TELENOR IoT|物联网连接技术|99来源:Analysys Mason10澳大利亚、巴林、捷克、芬兰、德国、印度、科威特、马来西亚、沙特阿拉伯、新加坡、韩国、西班牙、泰国、土耳其、阿联酋、英国、美国11来源:GS如图4所示,至2030年,使用LTE Cat-1和LTE Cat-4/4 技术的物联网连接数将持续增长,而2G/3G连接数则持续下降。NB-IoT和LTE-M的市场份额正在上升,但整体规模仍相对有限;5G(包括5G NSA、SA和RedCap)则在2025年后才开始大规模部署。这一预测清晰地表明,尽管LPWA技术正在获得越来越多的市场认可,且5G将在未来4-5年间推动这一趋势,但包括LTE Cat-1在内的4G技术仍将在未来一段时间内在物联网连接领域占据主导地位。4.3 5G RedCap的兴起与未来部署展望3GPP Release 17中定义的5G RedCap提供中等数据速率(数十Mbps),相较于LPWA时延降低,与完整功能5G设备相比复杂度降低。Release 18中定义的增强型RedCap(eRedCap)进一步降低了功耗和设备成本,使其非常适合无需峰值性能的可穿戴设备、传感器和智能表计等场景。截至2025年4月,T-Mobile美国、科威特STC、菲律宾Ditto以及多家中国运营商均已推出商用5G RedCap服务。此外,全球17个国家约20家运营商正在开展相关试验10。然而,即便在5G已覆盖的地区,RedCap的可用性仍然有限,因其依赖于5G SA核心网。目前大部分5G部署采用NSA模式,截至2024年年底,在已投资5G的620家运营商中,仅有约150家开始部署SA核心网。11图4:按技术类型统计的物联网连接数(不包括中国)9TELENOR IoT|物联网连接技术|1012 来源:Analysys Mason部署SA核心网较为复杂且资金投入大,因此这一过程将循序渐进。基于运营商的投资计划和频谱持有情况,我们预计:到2030年,在西欧、北美和东亚的高收入市场上将完成SA网络建设,为RedCap服务落地铺平道路;到2030年,印度和东南亚可能仅实现有限的RedCap覆盖,而5G SA部署进程较慢的市场,特别是非洲和中东的部分地区,可能要在2032年之后才会提供商用RedCap服务;到2035年,主要经济体和大多数新兴市场可能会至少提供部分RedCap服务,但具体覆盖水平将因运营商而异。数据漫游是全球物联网项目的另一个关键因素。大多数早期的SA部署缺乏运营商间漫游协议,因此RedCap设备在其归属网络之外可能会面临服务中断的风险。在SA漫游协议就绪之前,企业应根据各地区的RedCap可用性制定自身部署计划。例如:自2025年起,先进的资产追踪或远程视频监控等高价值应用可在北美和中国率先使用RedCap技术;在RedCap部署进展缓慢的地区,或需要国际漫游的情况下,Cat-1至Cat-4或LTE-M可能在2030年之前仍是最可靠的选择。图5:2025年5G NSA和SA部署情况及RedCap可用性12持续关注运营商的SA核心网升级路线图非常重要,从而确保您的物联网战略与实际的RedCap可用性相契合,并且在条件成熟时能立即采用新兴5G功能。已推出商用5G RedCap服务的市场区域已完成或正在进行5G SA部署的市场区域已推出5G但尚未部署5G SA的市场区域尚未推出任何5G服务的市场区域TELENOR IoT|物联网连接技术|1113来源:Analysys Mason4.4非地面网络技术在物联网中的应用基于卫星的物联网(非地面网络)突破了传统地面基站的限制,利用低轨(LEO)和地球同步轨道(GEO)卫星扩大了覆盖范围。过去,移动卫星服务提供商使用专用频谱和专业无线电设备,这些设备的成本过高且能耗过大,难以作为通用的物联网设备。随着3GPP Release 17和18的发布,得益于成熟、低成本、低功耗的NB-loT芯片组生态系统,实现了在使用MSS频谱的非地面网络上部署NB-loT应用。例如:Skylo已在北美和欧洲提供紧急短信和窄带遥测服务;Sateliot计划在2025年底前通过四颗低轨卫星提供商用NB-loT服务;铱星公司“星尘计划”的目标是到2026年为其低轨卫星星座增加NB-loT支持。与此同时,卫星直连蜂窝运营商(如AST SpaceMobile、Lynk、Starlink)正与移动运营商合作,提供基于标准2G/4G频段的直连设备通信服务。理论上,未经改装的2G/4G设备可以连接至卫星“基站”。而在实践中,需要对设备进行一些调整:Lynk的2G回落功能尚未进行大规模验证,AST SpaceMobile仍在完善其星载LTE无线电系统。由于监管和集成障碍较小,同时伴随着新卫星和网关陆续上线,基于移动卫星服务的物联网覆盖将在2025至2030年间稳步扩展。卫星直连蜂窝服务落地取决于与移动运营商的频谱共享协议、监管审批和设备认证。此类服务可能将首先在北美和东亚地区推出。西欧、拉丁美洲、非洲部分地区和东南亚等更大范围的部署可能将在2028至2030年间实施。到2035年,大多数主要经济体的企业有望至少接入一家服务提供商的商用非地面网络13。企业需考虑的关键因素:将非地面网络视为地面网络的补充,用于在偏远地区或紧急情况下的覆盖扩展或自动故障切换 选择同时支持地面和卫星连接的物联网设备 验证与卫星通讯运营商签订的漫游和服务等级协议 编制更高的设备和通信服务预算随着卫星星座规模扩大、认证流程简化以及定价更具竞争力,非地面网络生态系统日趋成熟,服务成本将降低,集成更加简便。卫星物联网将成为关键应用场景实现真正全球不间断连接的实用之选。14来源:Analysys Mason,Telenor IoTTELENOR IoT|物联网连接技术|12不同的物联网应用场景对连接技术的要求不尽相同。下表展示了适合各场景的蜂窝物联网技术。智能计量和环境感知场景要求设备能够依靠单块电池运行多年,同时能从室内深处或偏远地点可靠地传输少量数据。在NB-IoT可用的地区,其超窄带设计可实现极低的功耗和更强的信号穿透能力。在NB-IoT覆盖有限或漫游情况复杂的地区,LTE-M可作为有效的替代方案,以稍高的功耗换取更广泛的可用性和更简单的全球部署。在某些情况下,企业还可将LTE Cat-1作为备用选项,因为其成熟的漫游基础设施可在LPWA网络不可用时,确保服务不中断。资产追踪解决方案既需要广泛的地理覆盖范围,又需要适中的吞吐量,以处理位置更新、传感器读数和偶尔的控制指令。虽然NB-IoT支持城市地区静止或低移动性的追踪设备,但其较高的时延和有限的上行能力使表6:适用于不同使用场景的物联网连接技术14智能计量资产追踪工业自动化联网车辆视频监控智慧农业可穿戴设备应急响应应用场景卫星(非地面网络)5.不同蜂窝物联网技术的典型应用场景TELENOR IoT|物联网连接技术|13没有哪一种技术能适配所有场景。根据每个应用场景的功耗和覆盖要求、吞吐量需求以及时延限制,确定NB-IoT、LTE-M、Cat-1、Cat-4/4 、5G RedCap及卫星(非地面网络)等技术的恰当组合,企业当下即可部署稳定可靠的物联网解决方案,又能在未来无缝衔接技术创新,实现平滑演进。其不太适合实时移动追踪。LTE-M或LTE Cat-1则提供了更均衡的性能,具备更高的数据速率、更低的时延以及跨蜂窝网络的无缝切换能力,成为目前资产追踪解决方案普遍采用的技术。随着运营商部署5G SA核心网,5G RedCap将成为另一个可行之选,为新一代追踪设备提供中等带宽和更低时延。在偏远地区或海上航线,非地面网络可作为补充,确保高价值资产即使在地面基站信号覆盖范围之外也保持可见。工业自动化对网络时延、抖动(数据包传输时间的波动)和可靠性等参数要求苛刻。LTE Cat-4/4 和5G NSA具备高吞吐量和低时延的特性,适用于工厂车间和生产线的实时控制。随着5G SA网络逐渐成熟,在技术上进一步降低时延,并支持网络切片和边缘计算等高级功能,将显著提升网络性能,满足对可靠性要求极高的应用场景的需求。联网车辆的连接方案呈现多元化需求。基础的车载信息服务,如车辆健康监测、地理围栏和OTA更新,采用LTE-M或Cat-1即可实现。而要求高带宽、低时延的应用场景,如高清地图下载、高级驾驶辅助系统(ADAS)和实时视频,则需依赖LTE Cat-4/4 、5G NSA/SA网络或5G RedCap技术。非地面网络能在地面网络覆盖中断时实现无缝故障切换,确保偏远地区或跨境场景下的持续连接。视频监控系统要求网络具备稳定的吞吐量和最小抖动的特性,以支持连续摄像流和边缘分析。LTE Cat-1可处理标准清晰度的视频流,而Cat-4/4 和5G NSA/SA网络则可轻松支持高清或多摄像头部署。随着5G RedCap部署的扩展,它将满足中等带宽需求并降低设备复杂性,实现视频监控系统在室内外环境中的灵活扩展。智慧农业应用场景需要设备电池长效运行以及在广袤农田、茂密植被和偏远农场中的广泛网络覆盖。NB-IoT和LTE-M在此方面表现优异,为土壤湿度探头、气象站和牲畜追踪器提供出色的室内穿透能力和超低功耗。在地面网络覆盖不到的区域,非地面网络可用于填补覆盖空白,确保精准农业应用场景的连续数据流。个人健康监测仪、员工安全标签等可穿戴设备要求低功耗运行且能周期性传输数据。LTE-M和Cat-1提供了广泛的漫游支持和强大的室内覆盖能力,使设备在家中、办公室和工厂等场景中都能保持连接。随着5G RedCap的部署,它将成为可穿戴设备的理想选择,这类设备既需要适度的带宽和简化的设计,同时又应保持长久续航。自然灾害或野火等场景中的应急响应需要网络在任何条件下保持不间断连接。LTE Cat-4/4 、5G NSA/SA以及5G RedCap提供了实时态势感知、视频直播和数据共享所需的高吞吐量和低时延。当地面基础设施受损或不可用时,非地面网络能在极端恶劣环境下为应急救援人员和指挥中心提供通信保障,打通应急救援“生命线”。TELENOR IoT|物联网连接技术|14大规模部署和管理物联网解决方案需要在创新与现实条件之间取得平衡。基于Telenor IoT丰富的行业经验,本文提出了一条务实的实施路径:从现有网络起步:优先采用已在目标市场部署并经过验证的技术。例如,现在采用LTE Cat-1或LTE-M技术,可确保可靠的覆盖范围,无需等待新一代技术在未来普及。按实际需求匹配技术:明确应用场景的核心需求(如深度室内穿透、低时延、高带宽或全球连续性),选择满足这些需求的最简单的技术方案。避免在5G RedCap或非地面网络等新技术尚未普及且成本效益不足的情况下贸然推进。应对2G/3G退网:核查使用2G/3G的现有设备,确认各运营商的退网时间表,并制定分阶段迁移计划。多模设备虽可简化过渡过程,但仍可能需固件更新或人工干预来重置设备。灵活满足未来需求:在可行的情况下,采用硬件与SIM管理的模块化设计,以便支持OTA配置文件更新或技术回落,从而应对意外的网络退网或区域性技术迭代。小规模着手并逐步扩展:在受控环境中试用新技术,以验证性能和集成复杂度,然后再进行大规模部署。利用实践经验来优化连接方案组合,为确保大规模运营顺利进行做充分准备。建议企业根据实际业务需求选择连接方案,重点关注现有可用技术,避免刻意求新,构建稳健、面向未来的物联网解决方案。若您有意探讨哪种技术最适合您的使用场景和实际情况,欢迎访问我们的网站或联系我们:。6.Telenor IoT的洞察与建议TELENOR IoT|物联网连接技术|15关于Telenor IoTTelenor IoT是全球知名电信运营商Telenor集团旗下的物联网业务品牌,提供物联网综合解决方案。作为全球领先的物联网解决方案提供商之一,20多年来,Telenor为各种规模的企业提供全球物联网连接服务、云服务和专业支持。Telenor IoT在约200个国家为客户管理逾2,500万台联网设备,服务于沃尔沃、斯堪尼亚、日立、Verisure Securitas Direct和富世华等全球化企业。我们在北欧经由Telenor在当地的机构提供物联网解决方案,在全球其他地区则由Telenor Connexion为需要定制产品和服务以及专业支持的大型跨国企业提供物联网解决方案。关于Analysys MasonAnalysys Mason是一家全球性的科技、媒体与电信管理咨询公司。我们提供定制化战略、交易、转型、监管及政策咨询服务,并结合备受认可的专业分析师团队的研究和洞察,支持客户实现增长目标,塑造未来格局。

    发布时间2025-08-22 15页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025网络原生智能架构重构安全网络一体化白皮书(83页).pdf

    未来网络技术发展系列白皮书(2025)网络原生智能架构重构安全网络一体化白皮书第九届未来网络发展大会组委会2025年8月 版权声明版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:紫金山实验室紫金山实验室等等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明 主要编写单位:主要编写单位:紫金山实验室 主要编写人员:主要编写人员:逯云松、吴柯萌、黄一凡、刘超、郭栋、薛妍妍、李天萁、赵倩、周序、李煊、王晓露、冉茂莹 I 前 言 随着全球信息通信技术的快速发展,网络的智能化水平不断提升,网络智能化已成为核心研究方向之一,传统的网络架构在面对日益复杂的应用场景和多样化的用户需求时,逐渐显现出其局限性。面对云、边、物多元场景交汇的挑战,我们提出一种全新的架构思维网络网络原生智能(原生智能(Network-Native Intelligence),在安全网络一体化的基础上,可在网络自身之中、之上原生地生长出 AI 能力。本白皮书正式发布“网络原生智能架构网络原生智能架构”。该架构基于图建模与推基于图建模与推理能力的可编排智能框架理能力的可编排智能框架,具备高度解耦、自适应与跨域感知能力。框架天然融合了网络拓扑、安全策略、业务意图等要素,以图为基础、以编排为方法,可实现安全能力的智能组合与按需投送。在此架构之下,网络与智能不再是串联关系,而是共生于一体的共生于一体的协同系统协同系统。白皮书详细阐述该架构的设计理念、技术基础、核心能力、应用场景及行业落地价值,并引领行业进入“安全网络一体化”的新范式。本白皮书介绍了现有网络原生智能的背景与挑战,描述了网络原生智能的设计理念,通过安全网络一体化机制,颠覆传统网络与安全割裂模式,强调二者一体化共生,以智能为核心驱动,安全能力在网络中自然生长。技术基础以图建模和编排方法为核心,融合轻量级 AI模型、可扩展机制,实现高度解耦与自适应能力。核心能力涵盖感知、II 理解、决策和响应四个阶段,支撑安全能力的智能组合与按需投送。应用场景聚焦工业 4.0 时代的安全防护案例,结合云、边、物多元场景,提供针对性防御策略。行业落地价值体现在资源优化、专用性、可控性,引领“安全网络一体化”新范式,应对现代网络攻击的复杂性并提升整体系统防护效能。III 目 录 前 言.I 目 录.III 一、背景与挑战.1 1.1 研究背景.1 1.2 网络原生智能现状及挑战.3 二、网络原生智能理念.6 2.1 网络原生智能的定义.6 2.2 网络原生智能的核心特征.7 2.2 网络原生智能的安全基础.9 2.4 网络原生智能的概念对比.10 三、安全网络一体化机制.15 3.1 路由与策略协同.15 3.2 安全能力按需投送.18 四、图驱动智能编排的框架设计.22 4.1 感知、理解、决策、响应的核心能力.24 4.2 全网流量的实时感知与处理.27 4.3 拓扑、流量与安全状态的统一图建模.30 4.4 可编排智能引擎.40 4.5 插件化机制.47 五、框架落地与场景实践.50 IV 5.1 全网 DDoS 攻击检测与缓解方案.50 5.2 路由安全一体化解决方案.55 六、架构生态与未来展望.58 6.1 模块化开放的架构、生态与接口.58 6.2 迈向全面零信任及下一代 SASE 与 SD-WAN.61 6.3 构建可验证的安全智能体系.65 七、结语.67 附录 A:术语与缩略语.68 参考文献.70 1 一、背景与挑战一、背景与挑战 1.1 研究背景研究背景 人工智能(Artificial Intelligence,AI)是利用计算机或者由计算机控制的机器,模拟、延伸和扩展人类智能的理论、方法、技术及应用的一门新技术科学。随着大数据、云计算技术的普及,分布式存储和计算能力的大幅提升,人工智能在多个领域得到了快速应用,例如语音识别与合成、计算机视觉、知识图谱、自然语言处理、人脸识别、机器翻译、舆情分析、推荐系统、自动驾驶等。近年来美国政府在 国家人工智能研发战略规划的基础上,发布了国家人工智能研发战略计划,提出了 8 项国家人工智能研发战略,确定了联邦政府在人工智能研发方面投资的优先领域,以不断提升美国的人工智能应用能力1。其他国家也相继将人工智能技术提升到国家科技发展的战略高度,人工智能必将越来越深入地渗透到各行各业和社会生活的方方面面。它涉及的范畴包括自然语言处理、智能搜索、推理、规划、机器学习、知识获取、模式识别、神经网络、遗传算法等。人工智能的核心是算法,包括传统的机器学习算法和非传统的机器学习算法,其中,传统的机器学习算法主要解决简单的应用场景以及结构化的数据,非传统的机器学习算法主要解决比较复杂的应用场景以及非结构化的数据或者多样化的数据。2 全球正步入一个以数字化、网络化、智能化为核心特征的全新发展阶段2。以“新型基础设施建设”(简称“新基建”)为代表的宏伟蓝图3,正在全球范围内重塑经济社会的发展根基。从高速泛在的5G 网络、工业互联网,到支撑海量数据处理的人工智能与云计算中心,“新基建”不仅是技术设施的迭代升级,更是一场深刻的结构性变革,其最终目标是构建一个万物互联、数据驱动、智能引领的社会运行体系。以中国的“东数西算”国家工程为例,其构建了一个横跨东西、服务全国的一体化算力网络,旨在优化国家算力资源布局,为千行百业的数字化转型提供澎湃动力4。在应用人工智能技术的各个行业中,网络安全是活跃度排名前 3的行业之一,典型应用例如恶意流量识别、钓鱼邮件检测、恶意代码识别、僵尸网络检测等5。近年来,网络空间安全重大事件持续爆发,网络安全威胁全面泛化。斯诺登事件、乌克兰电网攻击事件、美国大选干预事件等表明,网络空间安全威胁覆盖了从物理基础设施、网络信息系统到社交媒体信息,对虚拟世界、物理世界的诸多方面构成威胁。网络空间安全已经成为非传统安全的重要组成部分。随着人工智能第三次浪潮的兴起,人工智能向诸多行业、领域不断渗透并交叉融合的趋势已经显现。人工智能因其智能化与自动化的识别及处理能力、强大的数据分析能力、可与网络空间安全技术及应用进行深度协同的特性,对网络空间安全的理论、技术、方法、应用产生重要影响,促进变革性进步。着眼人工智能赋能网络攻击的威胁和影响,从防范安全威胁、构建对等能力的视角着手,尽快开展重大关键技术研究。推 3 动“产学研”机构以有效应对人工智能赋能攻击新型威胁场景为首要需求,从攻防两方面进行联合攻关,开展智能化威胁态势感知、自动化漏洞挖掘与利用、智能恶意代码等技术研究。加快人工智能技术在国家、重要行业关键信息基础设施安全防护方面的体系化应用,整体性完成智能化升级换代,大幅提升关键信息基础设施安全保障、网络安全态势感知、网络安全防御、网络威慑的能力水平。1.2 网络原生智能现状及挑战网络原生智能现状及挑战 随着全球信息通信技术的快速发展,网络的智能化水平不断提升,特别是在即将到来的 6G 时代,网络智能化已成为核心研究方向之一6。传统的网络架构在面对日益复杂的应用场景和多样化的用户需求时,逐渐显现出其局限性。为了解决这些挑战,学术界和工业界开始探索“网络原生智能”(Network Native Intelligence,NNI)的概念,即将智能转变为一种可按需生成、精准交付的网络原生能力,以满足未来应用对高阶智能服务(如分布式 AI、安全网络一体化)的根本性需求7。在 5G 网络中,虽然 AI 技术已经开始应用于部分网络功能,如网络负载预测和用户行为分析,但其整体架构仍主要依赖于传统的网络功能分离(Network Function Virtualization,NFV)和软件定义网络(Software Defined Networking,SDN)等技术。相比之下,6G 网络则将更深入地融合 AI 技术,致力于构建一个“AI 原生”(AI-Native)的网络智能系统,从而实现更高层次的智能化管理89。这种融合不 4 仅体现在网络核心功能的智能化改造上,还涉及网络架构的整体重构,以及跨域协作机制的深入研究。网络原生智能并非简单地引入 AI 模型以优化网络基础设施,而是代表了对网络角色的一次范式重塑:即将网络从被动的数据流水线,转变为一个能够主动为分布式智能任务提供原生执行环境的计算平台。在这一前瞻理念下,如 DAEMON 项目所展示的,其技术关键在于构建一个网络智能协调器(Network Intelligence Orchestrator)10。该协调器并非传统意义上的网络控制器,而是作为智能工作负载的生命周期编排引擎,它通过对底层网络资源的深度抽象与统一调度,实现了 AI/ML 模型部署、执行与协同的自动化。其所展现出的灵活性与适应性,本质上是网络按需组合与交付智能服务的核心能力体现。然而,尽管网络原生智能具有广阔的应用前景,其在实际部署过程中仍面临诸多挑战。首先,AI/ML 模型在网络中的应用需要解决模型依赖性和跨域协作等复杂问题。尤其是随着 6G 网络的引入,网络功能间的模型依赖性将更加复杂,如何在保障网络服务质量的同时,合理管理这些依赖性成为一个亟待解决的问题11。此外,6G 网络中的智能化管理还需要进一步优化跨域协作机制,以实现各个智能节点之间的高效协同。因此,需进一步将网原智能工作前置,探索用多模态在线训练与网络智能模拟等前沿技术,构建“网络原生智能”系统,构建源于网络,服务于多形态、多业务 AI 的“网络原生智能”,挑战网络智能,建立面向 AI 服务与 AI 应用的端到端安全防御系统,保障 AI 数据安全、5 模型安全、服务安全以及应用安全。6 二二、网络原生智能理念网络原生智能理念 2.1 网络原生智能的定义网络原生智能的定义 网络原生智能是一个以图建模为核心,通过智能编排引擎,调度原生于网络设备中部署的AI能力,并利用实时反馈进行持续优化的自动化协同框架。其主要理念是在安全网络一体化的基础上,可在网络自身之中、之上原生地生长出 AI 能力。该架构是一个基于图建模与推理能力的可编排智能框架,通过深度融合网络拓扑、安全策略与业务意图,最终实现安全能力的智能组合与按需投送。具体架构图 图 1-1 网络原生智能架构图 7 如图 1-1 所示。2.2 网络原生智能的网络原生智能的核心特征核心特征 网络原生智能的核心特征如下:(1)泛在的分布式智能泛在的分布式智能 网络原生智能框架主张 AI 工作负载(包括模型训练和推理)应根据成本效益分析,被部署在网络中最合理的位置,无论是终端设备、网络边缘,还是中心云。这种“智能无处不在”的理念,打破了传统集中式 AI 模型的束缚,是实现低延迟应用和高效资源利用的关键。网络本身演变为一个巨大的、分布式的计算平台,智能分析能力可以根据任务需求,被灵活地调度到离数据源最近的地方。分布式智能技术主要分为分布式智能训练与分布式智能推理两方面,在分布式智能训练领域,联邦学习是一种经典架构。参与训练的客户端无需上传本地数据,仅需上传训练后的 ONNX 模型更新;边缘服务器节点对这些模型参数聚合更新后,再下发给各客户端。分布图 1-2 网络原生智能的核心特征 8 式智能推理指在网络边缘分布式执行 ONNX 模型。由于边缘节点的计算与存储资源有限,如何减小并优化模型在分布式推理中的开销显得尤为重要。常见的模型压缩方法包括网络剪枝、知识蒸馏、参数量化、结构优化等12。(2)持续学习与实时自适应持续学习与实时自适应 网络原生智能框架能够在无需人工干预的情况下,实时地学习和适应网络环境变化。这通过架构中内建的闭环反馈机制得以实现。这些闭环持续捕捉网络交互和运营结果,自动将这些反馈用于模型的迭代和优化,使系统能够“自我进化”。面对 6G 网络环境的高度动态性和不可预测性,这种持续学习和自适应的能力是维持网络高性能和高可靠性的根本保障。(3)动态任务图调度)动态任务图调度 网络原生智能框架通过分布式任务图调度技术,将复杂的安全任务细分并分配到不同的任务图中进行处理,这不仅优化了计算资源的利用效率,还显著提高了系统的吞吐能力和响应速度。其中每个任务图都可以独立运行,并根据不同的需求进行动态调整。这种设计灵活性使得系统能够根据网络环境的变化进行即时的优化配置,从而显著提升系统的适应能力和防护效果。例如,当检测到新的安全威胁时,系统可以即时加载新的防护策略或调整现有任务的执行顺序,而无需重新部署整个系统。这种即时反应能力在当今瞬息万变的网络环境中尤为重要,它确保了任务图驱动能够始终保持在最佳防护状态。4)多阶段并行流水线)多阶段并行流水线 9 在网络原生智能框架中,多集安全防御策略的引入是实现高效网络安全防护的重要组成部分。通过多阶段并行流水线设计,将网络流量从初步分析到对流量进行处理的过程,分为感知、理解、决策和响应。在多集安全防御策略基础上,网络原生智能框架还通过引入网络业务的服务水平协议(Service Level Agreement,SLA)优化模型,实现了在算力网络中的 SLA 协议优化。2.2 网络原生智能的网络原生智能的安全安全基础基础 网络原生智能包含两大安全基础,分别为智能驱动安全和网络安全一体化:图 1-3 网络原生智能技术组成(1 1)智能驱动安全智能驱动安全 传统基于机器学习的安全检测安全技术通常依赖于预设规则和人网络原生智能网络原生智能网络安全一体化智能驱动安全 10 工分析,面对日益复杂且快速演变的威胁时,响应滞后、误报率高且难以应对未知攻击,形成“事后诸葛亮”式的被动防御。通过遍布全网的分布式智能体协同工作,网络能够自主地感知安全威胁、深入分析潜在风险并迅速作出决策,从而实现从传统的“亡羊补牢”式被动防御向“未雨绸缪”式主动预测与防护的根本性转变,构建起一个具备全局视野和快速响应能力的智能安全防护系统。(2 2)网络安全一体化网络安全一体化 传统网络安全领域,安全产品和网络往往各自为政,形成分散且孤立的“烟囱式”架构,导致安全信息难以共享、策略难以协同,安全事件响应效率低下,甚至出现安全盲区。网络安全一体化技术旨在打破这些壁垒,通过构建一个统一协同的安全防护系统,实现安全能力的内聚与联动。该系统不仅能实现安全事件的自动化感知、深度分析和智能处置,更强调将处理结果实时反馈至整个网络,从而形成一个自适应的安全防御能力,最终构建出能够全面抵御复杂威胁的“免疫系统”。2.4 网络原生智能网络原生智能的概念对比的概念对比 2.4.1 Network for AI 和和 AI for Network 的的对比对比 Network for AI 和 AI for Network 代表了人工智能与网络基础设施融合的双向路径,前者强调网络架构的优化以支持人工智能应用的运行,而后者则聚焦于利用人工智能技术来提升网络本身的性能和管 11 理效率,这种区别不仅体现了技术发展的互补性,还突显了从基础设施到应用优化的全面转型15。Network for AI 主要关注设计和构建网络系统来满足人工智能工作负载的需求,例如通过高带宽、低延迟的互联技术如 InfiniBand 或优化以太网来处理大规模数据传输和计算任务16,这使得它特别适用于数据中心和边缘计算环境,其中 GPU 集群需要高效的分布式计算支持,以实现人工智能模型的训练和推理过程,从而提高整体系统效率并减少瓶颈17。相比之下,AI for Network 则将人工智能算法作为工具嵌入网络管理中,例如采用 AIOps(人工智能运维)来实现故障预测、资源动态分配和自动化配置18,这有助于网络从传统的反应式维护转向预测式优化,显著降低停机时间并提升安全性。总体上,这种区别推动了行业从单一方向的优化向闭环生态的构建演进19,在实际应用中,二者往往相互依赖,例如在 6G 网络中,Network for AI 提供支持人工智能的底层架构,而 AI for Network 则利用这些架构进行自我优化,从而形成一个高效、适应性的智能网络体系。2.4.2 网络原生智能网络原生智能与与 AI for Network 的的关系关系 在人工智能与网络基础设施深度融合的背景下,网络原生智能与AI for Network 之间形成了紧密的驱动与优化关系,前者强调人工智能算法直接嵌入网络架构中成为其内在组成部分,实现分布式智能代理的协作和实时适应,而后者则聚焦于利用人工智能技术来提升网络 12 的管理效率、性能和自动化水平,这种关系不仅体现了从外部工具到内在嵌入的演进路径,还为网络从被动传输向主动智能决策的转型提供了关键机制。网络原生智能的核心在于将 AI 作为网络的“原生”功能,例如通过边缘计算和分布式学习机制在无线接入网或核心网中部署模型21,从而推动网络的韧性和规模化协作,而 AI for Network 则为其提供必要的优化工具,如 AIOps 和机器学习算法,用于故障预测和资源动态分配,确保嵌入式 AI 模型能在复杂环境中高效运行22。进一步而言,这种关系在 5G-Advanced 和 6G 愿景中尤为突出,AI for Network 通过预测式维护和自动化配置机制,使网络原生智能能够实现“零接触优化”的目标,例如支持联邦学习以保护隐私并加速模型迭代,从而提升网络的自主性和可靠性23。总体上,AI for Network 不仅是网络原生智能的实现路径,还促进了其在实际应用中的扩展,例如在电信运营商环境中,AI 驱动的流量分析确保嵌入式智能的无缝协作,而网络原生智能则利用这些工具进行实时决策,形成一个闭环的生态循环。这种关系还延伸到标准制定中,例如在 3GPP 规范中,强调 AI for Network 的算法框架作为网络原生智能嵌入的支撑,推动从传统网络向 AI-centric 架构的平滑过渡24。在具体实践如 Nokia 的 AI-native 框架中,这种关系表现为双向强化28,AI for Network 不仅提供监控和根因分析以支持网络原生智能的部署,还通过 MLOps 机制确保模型的生命周期管理,进一步降低了复杂性和数据隐私挑战。13 2.4.3 网络原生智能和智能原生网络的网络原生智能和智能原生网络的对比对比“智能原生网络”与“网络原生智能”则共同代表了人工智能与网络技术深度融合的前沿方向,然而,两者在架构设计与研究对象上存在本质区别。智能原生网络是专为满足大规模 AI 工作负载通信需求而设计的网络架构,遵循 Network for AI 的设计原则。其主要目标是通过优化数据传输来提升 AI 集群的整体计算效率,这一效率通常通过 AI 任务完成时间和 GPU 利用率等指标进行评估26。为实现此目标,该网络架构致力于构建一个为 AI 服务的可预测的、端到端的无损以太网27,其关键技术包括:采用支持远程直接内存访问(Remote Direct Memory Access over Converged Ethernet,RoCE)v2 的硬件,以及针对 AI 训练中常见的集合通信流量模式而优化的拥塞控制和负载均衡算法28。在实际部署中,智能原生网络的设计涵盖了从交换机、DPU 智能网卡到网络操作系统和管理软件的整个技术栈,旨在与 AI计算单元紧密配合,为连接大规模分布式计算节点的 AI 系统提供必要的、可扩展的高吞吐量与低延迟通信能力。而网络原生智能致力于提升网络自身的智能化水平(AI for Network)。如果说“智能原生网络”的目标是为 AI 应用构建一条极致通畅的网络,那么网络原生智能的目标则是让网络本身具备思考、感知和协同行动的能力。它不以加速 AI 训练任务或提升 GPU 利用率为主要目的,而是追求网络在安全防护、自动化运维和资源调度等原生能力上的革新。14 在实现路径上,二者的技术栈存在显著差异。智能原生网络聚焦于物理层和传输层的技术,如通过采用 RoCEv2 和专门的拥塞控制算法来打造无损、低延迟的数据通道29。相比之下,网络原生智能更侧重于架构和软件层面的创新。它通过引入图建模技术来统一描述网络拓扑、安全策略与业务意图,形成一个可供机器理解和推理的任务流水线。基于此,它将 AI 能力(如安全检测模型、流量分析模型)作为可调度的插件功能,通过一个智能编排引擎,动态地部署到网络中的路由器、交换机或边缘节点上,使整个网络成为一个分布式的 AI计算平台。网络原生智能与相关概念的对比如表 2-1 所示:方面 网络原生智能 智能原生网络 AI for Network Network for AI 定义 AI 能力原生于网络,实现分布式主动决策。为 AI 工作负载通信而设计的专用高性能网络。利用 AI 技术优化网络运维、性能与自动化。构建专用网络基础设施以支持 AI 工作负载。核心目标 网络具备主动决策能力,提升原生安全与韧性。最小化 AI 任务耗时,最大化 GPU 利用率。实现网络预测性维护 与 自 动 化 运 维(AIOps)。为 AI 集群提供无阻塞、低延迟的高速通道。技术实现 图建模、分布式 AI调度、边缘模型部署。无损以太网、RoCE v2、专用拥塞控制。AIOps 平台、机器学习、强化学习。高 带 宽 互 联 技 术(如 InfiniBand)。应用场景 实时安全防御、智能路由、自动化编排。AI 训练/推理集群、高性能计算(HPC)。故障预测、自动化运维、资源动态分配。支撑大模型训练的底层网络。优势 决策实时性强、韧性高、安全网络一体化。提升 AI 集群效率、加速模型训练。提升运维自动化水平、降低故障率。消除 AI 数据传输瓶颈。挑战 分布式 AI 的复杂成本高昂、需与计模型的准确性与可大规模集群的拥塞 15 性和安全性问题 算深度协同。解释性。管理。关系 AI for Network 的演进与高级实践。Network for AI 的具体实现。网络原生智能 的技术使能与工具。智能原生网络 的设计原则与基础。表 2-1 网络原生智能概念对比 三、安全网络一体化机制三、安全网络一体化机制 网络原生智能的目标,是构建能自主感知、决策和执行的网络智能系统。它要求网元设备不仅能智能优化路由、分配资源,更能主动预测风险、自动响应威胁。要实现这一目标,其核心前提是智能系统必须能够获取全面、实时的网络状态信息,并能对网络实施统一、协同的控制,并能预防潜在的安全性问题。然而,如果网络设备与安全设备在物理上分离、功能上独立,则无法在传输中保障模型、数据、业务的安全,这构成了实现网络原生智能的最大障碍。这种分离的架构导致安全策略部署滞后、网络优化与安全需求之间存在冲突,以及资源利用效率低下等突出问题。我们提出“安全网络一体化”这一创新机制,它作为网络原生智能的底层安全支撑,主要通过路由与策略协同以及安全能力按需投送两大核心途径来实现。3.1 路由与策略协同路由与策略协同 3.1.1 传统路由安全面临的挑战传统路由安全面临的挑战 在传统网络中,路由功能与安全策略通常是分离式管理。路由协 16 议(如 BGP、OSPF)的核心目标是保障网络的连通性与转发效率,而安全策略(如防火墙规则、访问控制列表 ACL)则由独立的网络设备进行配置和执行。这种分离式架构导致了诸多问题:首先,网络路由的调整是常态,但安全策略的变更却往往无法同步。为了优化路径而更改路由时,安全策略可能因未能及时更新而产生安全盲区,或因不匹配新路径而导致业务中断。在拥有成千上万条规则的大型网络中,人工管理这种动态一致性几乎是不可能的,极易引发策略冲突与配置错误。而且,传统的威胁检测,如旁路部署的入侵检测系统,其工作模式存在固有的延迟。它需要先由网络设备将流量镜像一份,再传输至分析设备,经过分析识别出威胁后,才能产生告警。整个过程链条漫长,从攻击发生到安全团队介入处置,往往存在数分钟甚至数小时的延迟。更严重的是,这种架构忽视了对网络控制平面自身的安全防护,使得 BGP 路由劫持、泄漏等威胁能够绕过传统安全设备,直接影响网络核心的稳定性与数据流向。3.1.2 3.1.2 安全网络安全网络一体化一体化平台平台下的下的路由与策略协同路由与策略协同 安全网络一体化平台是指将传统上分离的网络转发、安全防护与运行管控等功能,通过平台进行深度融合的设计范式。其内涵在于:网络基础设施(如路由器、交换机)具备标准化的可编程接口,使其从静态的转发设备转变为可由上层软件定义的策略执行点,使平台能够对全网的设备、策略和流量进行统一的分析、调度与编排。17 通过平台,路由与策略协同将安全分析模块的决策结果,转化为网络路由系统可执行的流量调度与路径调整动作的自动化机制。安全网络一体化平台接收来自威胁检测或业务策略模块的高级指令,并将其编译为具体的路由协议操作,从网络层面改变流量的走向,实现对网络行为的动态、精准干预。以 BGP 路由劫持这一典型的控制平面攻击为例,传统网络对此类威胁的响应严重依赖人工。网络运维团队通常在业务中断或用户投诉后才被动感知,需要通过复杂的 BGP 数据分析来定位劫持源,然后手动登录多台设备配置过滤器进行补救,整个过程耗时数小时甚至数天,期间造成的业务损失已难以挽回。平台则提供了一种主动、闭环的自动化处置方案。平台的智能感知能力是协同的基础,它通过 BMP 等技术实时采集全网 BGP 路由更新,并与 RPKI 等可信基准进行交叉验证。一旦检测到路由宣告的源AS 与基准不符,系统便在数秒内判定为“路由劫持”。此时,平台的协同处置能力将被激活:它不再仅仅是产生告警,而是自动触发处置决策。基于对劫持事件的分析,平台会决策并生成相应的缓解策略,并通过标准化的南向接口下发至网络中的核心及边界路由器。处置方式有如下两种:精确阻断:平台可生成 BGP FlowSpec 规则,指令全网路由器精准识别并丢弃所有发往被劫持前缀的、且源于恶意 AS路径的流量。路径重定向:平台亦可生成一条新的 SRv6 路由策略,将所有访问被劫持前缀的合法流量,强制牵引至一条预设的、可信的、未受 18 污染的备用路径上,从而在攻击持续期间保障核心业务的连续性。通过上述协同机制,网络的安全能力不再仅仅是数据平面的被动过滤,而是升级为深入控制平面的、主动的路由路径调度与治理。这种方式打破了传统网络与安全的壁垒,能够更快速、更灵活地应对包括控制平面和数据平面在内的各类安全威胁,在阻断攻击的同时,最大限度地保障正常业务的连续性。3.2 安全安全能力按需投送能力按需投送 3.2.1 传统传统安全安全能力部署的痛点能力部署的痛点 传统安全能力在长期实践中暴露了三个主要局限性:(1 1)部署僵化与资源利用率低部署僵化与资源利用率低 安全设备的处理能力一旦部署后便难以更改。企业为了应对业务流量的峰值,必须提前采购并部署超出日常需求的硬件容量,导致在大部分时间里,这些昂贵的安全资源处于闲置或低负载状态,造成投资浪费。当业务增长需要扩容时,又面临着复杂的硬件替换、网络拓扑变更和较长的交付周期。(2 2)流量路径迂回与性能瓶颈流量路径迂回与性能瓶颈 由于设备集中部署,许多网络流量无法通过最优路径直接到达目的地,而是必须先被重定向至这些安全设备集群,处理完毕后再转发至最终目的地。这种迂回的流量路径显著增加了数据传输的延迟,并占用了额外的网络带宽。同时,这些集中的安全设备的处理能力上限,19 也构成了整个网络吞吐性能的瓶颈。(3 3)防御能力响应迟缓防御能力响应迟缓 传统安全架构下,新的威胁特征库更新、安全策略调整往往需要在每一台独立的安全设备上进行手动配置或分批推送。当面对突发的新型网络攻击(如零日漏洞利用、新型勒索病毒变种等)时,这种分散化的操作模式会导致防御规则无法快速、统一地覆盖整个网络防护节点。此外,对于跨地域、跨网络的分布式业务场景,安全团队需要耗费大量时间协调不同节点的设备参数同步,使得整体防御体系对威胁的响应速度滞后于攻击扩散速度,大幅增加了安全事件的处置难度和潜在损失。3.2.2 安全安全能力按需投送理念能力按需投送理念“安全能力按需投送”是为解决上述问题而提出的理念,所谓“按需投送”,其本质是依据策略,在数据流经网络设备时,对这些默认处于静默状态的安全功能进行动态“激活”和应用。具体实现上,统一的管控平台负责制定并下发安全策略。当网络设备接收到数据流时,能够实时识别其业务属性或安全风险等级。若该流量匹配了特定策略,设备便会立即调用其内部相应的安全处理模块,在不中断转发流程的前提下完成深度检查或过滤。对于不匹配策略的常规流量,则直接通过高速转发路径处理,其安全模块不被激活,从而避免了性能损耗。这种模式确保了安全防护能够精准、高效地应用于任意节点的任意流量,实现了安全覆盖的无处不在和网络资源的最优化利用,从 20 根本上改变了传统安全部署的被动和僵化局面。3.2.3 技术实现技术实现 实现按需投送的第一步,是建立一个能够统一制定和下发策略的管控平台。安全网络一体化平台负责将业务或安全需求转化为网络设备可以理解和执行的具体指令。在技术实现上,这依赖于标准化的建模与通信协议。平台采用 YANG 数据模型来对网络设备的安全功能(如访问控制、状态化防火墙、流量过滤等)进行标准化的、结构化的定义。随后,平台通过 NETCONF 协议,与网络设备建立安全、可靠的连接。当管理员在平台上定义一项策略时(例如,“禁止 A 业务群组访问 B 数据库”),平台会将其翻译成符合 YANG 模型的配置数据,并通过 NETCONF 协议以事务化的方式,精准地推送给全网中所有相关的网络设备。这种方式确保了策略能够被准确、一致地部署,并避免了传统命令行配置的复杂性和不确定性。当策略成功下发至网络设备后,设备必须具备精准识别相应数据流的能力,这是触发“按需”动作的前提。在技术上,这要求网络设备在其入口接口处具备一个高性能的流量分类引擎。传统的五元组(源/目的 IP、源/目的端口、协议号)是基础的分类依据。但为实现更精细化的管控,现代网络设备还需支持更深度的识别技术。例如,通过异常流量检测技术识别特定的流量异常模式,或者根据报文中携带的特定元数据标签(如 VLAN Tag、MPLS Label 或 SRv6 SID 中包含的应用信息)进行分类。当一个数据包进入设备时,分类引擎会 21 高速匹配这些预设的规则。一旦命中,该数据流便被“标记”并准备接受下一步的策略处理 动态调用是实现“按需投送”的核心环节。当一个数据流被分类引擎成功识别并标记后,设备的控制平面会根据策略指令,动态调用其芯片或操作系统中对应的按需投送功能模块。这个调用过程发生在设备内部,而非将流量转发至外部。例如,若策略要求对一个新建的TCP 连接进行状态化防火墙检测,设备的处理器会为该连接在专门的硬件会话表中创建一个条目,后续属于该连接的数据包将依据此会话表状态进行快速匹配与处理。若策略要求对流向某个服务器的流量进行异常流量清洗,设备则会激活其网络处理单元(NPU)中专门的DDoS 攻击缓解逻辑,对该特定流量进行速率限制和特征过滤。这个“调用”过程是瞬时的,且只针对被标记的流量,确保了常规流量的转发性能不受影响。3.3.4 按需投送的优势与价值按需投送的优势与价值 首先,在网络性能与资源效率方面,该模式旨在减少不必要的性能开销。通过在流量路径上的网络设备进行原生处理,可避免将流量重定向至集中部署的专用安全设备,从而有助于降低因路径迂回产生的网络延迟和带宽消耗。同时,安全功能按需激活的机制,使得设备的安全处理模块在未触发策略时保持较低负载,这种设计旨在提升硬件资源的整体利用效率,并更好地平衡安全处理与高性能转发之间的关系。22 其次,在业务响应与部署灵活性方面,此模式提供了一种更为敏捷的能力部署方式。由于安全能力的启用是通过下发软件策略来完成,而非部署实体硬件,因此能够缩短为新业务提供安全防护所需的准备周期,以适应快速迭代的业务环境。它也允许安全策略以更精细的粒度进行应用,例如针对特定的应用或业务流进行差异化配置,这相较于传统的边界防护模型,提供了更为灵活的管控选项。最后,在安全覆盖的广度和策略的一致性上,该模式也带来了显著改进。由于网络中的众多设备均可作为策略执行点,这种架构具备了将安全防护能力延伸至网络内部的潜力,为传统模型中通常缺乏有效监控的“东西向”流量提供了防护手段。此外,通过统一平台对策略进行集中管理和下发,有助于确保安全规则在不同网络节点间的应用一致性,能够在一定程度上降低因手动、分散配置所引入的策略冲突或遗漏风险。四、四、图驱动智能编排图驱动智能编排的的框架框架设计设计 在网络原生智能架构中,图驱动智能编排框架扮演着核心中枢的角色,它将网络资源、安全功能和业务需求抽象为图结构模型,通过图推理算法实现要素间的动态关联解析和逻辑决策,从而桥接基础设施与智能应用,确保整个架构从被动响应向主动适应演进。这种关系不仅体现了图驱动机制作为数据基座的支撑作用,还突显了编排引擎在执行层面的关键性。我们以 DDoS 攻击检测和缓解为案例,来阐述 23 图驱动智能编排框架所完成的过程:首先安全网络数据智能平台先通过可编程交换机的采集技术感知到攻击特征、流量信息、设备状态及环境关联内容,接着由智能分析引擎解析出攻击属性、设备适配性并排除不合规方案,再借助图驱动框架选定“交换机 A 阻断”的方案,确定执行顺序与资源分配,最后通过智能分析引擎下发指令激活设备功能,监控执行状态与效果并反馈更新形成闭环,高效处置了攻击,从而保障了核心业务的正常运行。简言之,通过图驱动与智能编排的框架,使网络设备的安全能力变为可分析、可编排、可升级的标准化模块,成为安全网络一体化中“能力聚合、策略适配、资源协同、快速响应”的智能中枢。为了构建并实现上述案例中的智能系统,我们需要构建一个全新的、具备高度解耦、自适应和跨域感知能力的框架。本章将深入探讨图驱动与智能编排框架的感知、理解、决策、响应核心能力,以及其在全网流量实时感知与处理能力,拓扑、流量与安全状态的统一图建模能力,可编排智能引擎与动态逻辑能力,解耦 AI 组件与网络设施的插件化机制等关键能力。24 4.1 感知、理解、决策、响应的核心能力感知、理解、决策、响应的核心能力 图驱动智能编排框架的核心能力由感知、理解、决策和响应这四个步骤构成。具体过程如图 4-1 所示。4.1.1 感知感知阶段阶段 感知阶段是整个框架的数据基础,其核心职责是从所有相关的网络基础设施中全面、持续地采集各类数据,并进行标准化的处理与治理,为后续的智能分析提供高质量的数据输入。该过程首先通过分布式数据采集能力,从传统数据中心、动态云环境、边缘设备和物联网等多样化的环境中,实时获取全网流量数据。随后,这些原始数据会立即进入实时数据处理与治理流程,进行统一的清洗、格式转换和关图 4-1 图驱动智能编排的框架图 25 联丰富,特别是对时序数据的处理,以确保数据的一致性与可用性。同时,该层通过持续安全内容监控能力,动态监测用户与设备实体的行为,并对已知的威胁和漏洞信息进行感知,从而确保了数据来源的全面性和安全相关性。4.1.2 理解理解阶段阶段 理解阶段的核心任务是将来自感知阶段的海量、零散的数据,转化为结构化的、具有深度洞察的知识。该层通过构建统一图建模来完成这一目标,即将网络拓扑、流量信息、安全实体等关键要素抽象为图的节点,并将它们之间的连接、策略应用和威胁关系等定义为图的边,从而将复杂的网络环境映射为一个统一、关联的数学模型。在此基础上,图驱推理引擎会运用智能编排算法对该图进行深度挖掘,其能力包括执行行为分析以发现偏离正常模式的异常活动,通过攻击路径可视化直观地展现潜在攻击的传播路径,以及进行威胁情报融合,将外部威胁数据与内部网络状态相结合,最终形成对安全态势全面而深刻的理解。4.1.3 决策决策阶段阶段 决策阶段依据理解阶段提供的深度洞察,负责制定最优的应对策略,并将其转化为可执行的任务。首先,智能决策引擎基于跨域情报分析和 AI 辅助决策技术,对识别出的风险进行风险定级,并能够根据预设的业务或安全意图,自动生成相应的安全策略,即意图驱动策 26 略生成。决策制定后,可编排智能引擎会负责后续的执行与协调。它通过策略解析功能,将抽象的策略指令翻译成具体设备能够识别的命令,并可调用预设的自动化剧本来执行标准化的操作流程,最终通过任务下发机制,将指令准确无误地传递给响应阶段。4.1.4 响应阶段响应阶段 响应阶段是将决策阶段生成的策略转化为实际行动的关键环节,核心目标是依托网络设备的策略执行能力,实现对威胁的快速阻断、流量的动态调控及安全状态的持续优化,最终形成从检测到阻断的闭环防御。在安全网络一体化的解决方案中,通过路由器为核心执行单元,融合硬件加速、标准化接口与状态反馈机制,形成从策略下发到效果验证的完整闭环,确保安全意图在网络中高效落地。其能力包括如下 3 个方面:(1 1)路径与应用的精细化控制路径与应用的精细化控制 为实现有效的策略协同,执行单元需具备精准的控制能力。SRv6技术通过网络路径可编程性,能够将抽象的策略意图(如租户隔离)转化为具体的数据转发行为,确保不同业务的流量严格按照预设路径进行端到端传输。例如,在应对路由劫持时,可通过下发 SRv6 策略,将受影响的业务流量强制牵引至一条可信的备用路径,保障业务连续性。(2 2)数据平面的策略执行与状态反馈数据平面的策略执行与状态反馈 路由器的 ACL 能力是策略执行的直接体现。它支持在硬件层面对 27 数据流进行过滤和阻断。同时,现代路由器能够为 ACL 规则关联独立的硬件丢包计数器。当有报文因匹配 Deny 规则被丢弃时,相应的计数器会自动累加。上层管控平台可通过周期性地查询这些计数器,精确地量化策略的执行效果,为实现自动化闭环处置和安全态势分析提供了数据输入。此外,更先进的 BGP FlowSpec 技术,允许平台基于 BGP 属性动态生成流量过滤器,为处置路由安全威胁提供了更精准的手段。(3 3)自动化管控的标准化接口自动化管控的标准化接口 上述能力的调度协同,依赖于统一、开放的管控接口。以NETCONF 协议及相应的 YANG 数据模型为代表的标准化南向接口,正在取代传统的 CLI和 SNMP。YANG模型为路由器的各项功能提供了标准化的数据结构定义,NETCONF 则提供了基于模型进行配置和操作的协议框架。这使得上层平台可以自动化、程序化地完成对路由器的精细化配置和海量数据采集,为实现大规模网络的统一管控提供了技术基础。无论是下发一条用于阻断恶意宣告的 BGP 路由策略,还是订阅 ACL/FlowSpec 的匹配计数,这些标准接口都确保了平台能够对全网设备进行统一、实时且高效的管控。4.2 全网流量的实时感知与处理全网流量的实时感知与处理 全网流量的实时感知与处理是图驱动与智能编排框架的“神经末梢”,贯穿于感知阶段的前端数据采集与预处理环节,核心目标是实现对网络中各类流量的全域、实时、多维度捕捉,并通过标准化处理 28 为后续的理解、决策阶段提供高质量数据输入。该环节打破传统网络中流量监测的碎片化局限,依托分布式采集节点与智能化处理引擎,构建覆盖“云、边、物”全场景的流量感知体系,确保威胁特征、业务需求与网络状态的即时可见。4.2.1 全域流量感知的核心维度全域流量感知的核心维度 流量基础特征感知:通过 NetFlow、sFlow 等流采样技术,实时采集全网流量的五元组(源/目的 IP、端口、协议)、数据包大小分布、传输速率等基础属性。例如,对核心交换机的进出流量进行采样,精准识别流量突增、异常端口通信等潜在风险。路由与安全状态关联感知:结合 BGP 路由更新消息、路由器接口状态(如 Up/Down)、安全模块运行日志(如 ACL 命中记录、DDoS 检测告警),将流量特征与网络拓扑、策略执行状态关联。例如,当某条 BGP 路由突然失效时,同步追踪该路由关联的业务流量是否出现路径切换或丢包,判断是网络故障还是恶意路由劫持。应用层协议特征感知:解析 HTTP、DNS、SMB 等协议流量的负载内容,提取 URI 路径、域名请求模式、文件传输类型等应用层特征。例如,DNS 日志中出现 这类熵值超过 7.5 的随机域名(正常域名熵值通常 5),且每分钟发起 80 次递归查询,系统会自动匹配威胁情报库中的 DGA(域名生成算法)域名特征;对 HTTP 流量中 User-Agent 字段包含Wget/1.16(linux-gnu)-spider且高频访问/admin 路径的请求,结合 URI 中出现./目录 29 穿越特征,判定为可疑漏洞扫描行为。安全设备日志联动感知:汇聚 WAF、IPS、防火墙等安全产品的实时日志,提取攻击源 IP、攻击类型、防护动作等信息。例如,Cloudflare WAF 在 3 分钟内拦截同一 IP 的 15 次 CC 攻击(特征为不同 User-Agent 但相同请求频率的 HTTP GET),系统自动触发与 DDoS 清洗设备的联动,通过 GRE 隧道牵引该 IP 流量至清洗节点,同时从日志中提取攻击者指纹:地域、攻击工具、历史攻击记录,生成可视化的攻击者画像报告。4.2.2 实时处理的关键技术机制实时处理的关键技术机制 首先,机制的底层核心是其分布式数据采集架构。在边缘路由器、核心交换机、云边界网关等关键节点部署采集代理,通过“Master-Client”模式,可以在全网资产中部署轻量级的 Client 代理,构建了一个能够横向扩展的统一数据采集网络。这些客户端能够持续性地从主机和网络设备等多元实体中。具体的采集内容如图 4-2 所示。汇聚的数据流被送至作为系统核心的 Master 总控平台,进行高性能的智能分析与深度处理。该平台整合了时序存储、分布式处理与并行计算技术,能够对海量数据进行高效的治理与挖掘。其处理能力可支持对高达 10Tbps 级别的网络流量进行瞬时、高保真的精准采样与分析。Master 平台不仅是数据存储库,更是一个多维度智能分析引擎,通过整合与关联来自不同维度的数据源,实现对网络健康状态的综合评估、异常行为的精准识别以及潜在安全威胁的深度洞察,最 30 终构建起一个立体化的实时网络监测体系。图 4-2 实时数据采集内容 4.3.3 与响应阶段的联动反馈与响应阶段的联动反馈 流量感知与处理环节并非单向数据输出,而是通过与响应阶段的实时联动形成闭环:响应阶段执行的路由策略调整(如流量重定向、带宽限制)会实时反馈至感知层,触发流量基线的动态更新。例如,当响应阶段对某攻击源执行带宽限速后,感知层会立即更新该源 IP 的流量基线,避免将限速后的正常流量误判为异常;同时,通过监测重定向后流量的清洗效果(如攻击包占比下降),验证响应措施的有效性,为策略优化提供数据支撑。4.3 拓扑、流量与安全状态的统一图建模拓扑、流量与安全状态的统一图建模 拓扑、流量与安全状态的统一图建模是图驱动与智能编排框架中“理解阶段”的核心技术支撑,其核心目标是将分散的网络拓扑信息、动态流量特征与安全状态数据抽象为“节点-边”的图结构,此过程 31 是一个并行的、由数据驱动的持续性工作流,它将原始的感知数据实时地注入、实例化并关联到图模型中。4.3.1 多源数据融合图结构多源数据融合图结构 统一图建模以有向无环图(Directed Acyclic Graph,DAG)为基础,将网络拓扑、流量特征与安全状态抽象为图中节点与边的关联关系节节点点包含三类核心节点,分别对应拓扑节点、流量节点与安全状态和安全状态节点。具体结构如图 4-3 所示。拓扑节点:代表网络中的物理或逻辑基础设施,如路由器、交换机、服务器、物联网设备等。其节点属性主要为相对静态的配置信息,包含 IP/MAC 地址、设备类型、接口状态(Up/Down)以及通过LLDP 或路由协议发现的拓扑层级关系 流量节点:代表一次具体的通信行为,是对一个或一组聚合后通信流的抽象。其属性包括通过 NetFlow 提取的五元组(源/目的 IP、端口、协议)、数据包统计特征(如字节数、包长分布)及载荷二图 4-3 多源数据融合图结构 32 进制特征向量,形成流量模态节点。安全状态节点:代表一个具体安全事件的精细化建模。此类节点通常由外部安全系统事件实例化,如整合 WAF 拦截日志、IPS 告警、安全模块运行日志等安全事件作为一个独立的事件节点进行实例化。边的定义体现数据间的依赖关系:拓扑节点与流量节点通过流量路径边关联,拓扑节点或流量节点与安全状态节点通过事件关联边连接(如异常 DNS 请求指向恶意域名节点),流量节点与流量节点之间通过流关联边进行连接。流量路径边:核心功能是将逻辑上的通信行为映射到物理或虚拟的网络基础设施之上。此种边主要用于连接一个“流量节点”与一个或多个“拓扑节点”。当一个新的流量节点被实例化时,系统会解析其五元组信息中的源和目的 IP 地址,并结合图中已有的拓扑信息(如路由表、链路状态)来推算出该流量经过的转发路径。随后,系统会在该流量节点与路径上每一个关键的拓扑节点(如核心交换机、路由器)之间创建一条有向边。这条边清晰地表明了“此流量流经此设备”,从而为网络故障排查、流量工程以及基于路径的攻击溯源提供了直观的拓扑上下文。事件关联边:扮演着将抽象安全事件与具体网络资产进行归属的关键角色。它主要连接一个“拓扑节点”或“流量节点”到一个“安全事件节点”。当一个源自 WAF、IPS 或 EDR 的日志被创建为一个安全事件节点时,关联引擎会立即解析该事件涉及的主体信息(如源 IP、33 目的主机名等)。引擎会在图中查找与该信息匹配的拓扑节点或流量节点,并在二者之间建立一条“事件关联边”。例如,一个记录了 IP 地址 10.1.1.5 遭受 SQL 注入攻击的安全事件节点,会被一条边连接到图中代表 10.1.1.5 的服务器拓扑节点。这种关联使得安全告警不再是孤立的记录,而是直接附加到受影响资产上的、可供分析的动态属性,极大地提升了安全事件的上下文理解和响应效率。流关联边:模型中最具分析深度的一种边,其设计旨在揭示不同通信行为之间隐藏的、非直接的内在联系,这对于发现如僵尸网络、分布式扫描、多阶段攻击等协同性威胁至关重要。与前两者不同,此种边仅在两个“流量节点”之间建立。其创建过程遵循一套严谨的规则,这些规则主要借鉴了流量拓扑分析的研究成果。规则主要包括:o 共同源关联:若两个流量节点拥有相同的源 IP 地址,则在它们之间建立一条关联边。这种关联有助于识别同一源头发起的批量、发散式通信行为,如 P2P 应用的数据广播或恶意扫描活动。o 通信链关联:若流量节点 A 的目的 IP 恰好是流量节点 B 的源IP,则建立一条由 A 指向 B 的有向边。这种边能够有效地刻画出网络通信的接力或转发过程,对于追踪多跳攻击路径或服务调用链具有重要意义。o 时间邻近约束:上述所有流关联边的建立,都必须通过一个关键的时间窗口过滤器。只有当两个流量节点的产生时间戳之差小于一个预设的阈值 T(例如 3 秒),它们之间的关联才被认为是有效的。这一约束至关重要,因为它能确保所建立的关联 34 具有强时效性,有效排除了因时间跨度过大而产生的伪关系,并能显著控制图的边密度,从而提升后续图分析算法的性能与准确性。4.3.2 图模型的动态构建过程图模型的动态构建过程 图 4-4 图模型的动态构建过程 图模型的动态构建是一个由数据驱动的四阶段流水线过程,它首先通过标准化阶段将来自网络设备、流量探针和安全组件的异构原始数据流,解析并统一映射为拓扑、流量、安全状态这三类结构一致的节点模式,并依据关联逻辑定义了流量路径、流关联、事件关联这三类边的连接模式;随后,在实例化阶段,一个自动化引擎持续地将这些标准化的模式注入图数据库,通过对拓扑资产执行更新、对流量行 35 为进行累加、对安全事件进行独立创建的差异化策略来生成实体节点,并依据节点变更触发的规则,实时地创建或更新节点间的关系连线,最终将孤立的数据点实时编织成一张动态演进、关系丰富的全局网络图谱。具体构建过程如图 4-4 所示。(1 1)节点标准化节点标准化 图模型的动态构建始于节点标准化阶段,其核心目标是将异构、多源的原始数据流,转换为三种类型化、结构一致的节点模式(Node Schema)。此过程由一个多路数据解析与范式化引擎并行驱动。拓扑节点模式:该模式的数据源主要为网络管理协议的输出,如BGP 路由更新、LLDP 邻居发现报文及 SNMP MIB 轮询数据。解析引擎针对这些协议的特定格式进行解码,提取设备标识、接口状态及连接关系等信息。最终,所有信息被映射为一个标准的拓扑节点 JSON对象,其核心字段包括:ip_address(IP 地址)、mac_address(MAC 地址)、device_type(设备类型)、interface_status(各接口 Up/Down 状态)以及通过 LLDP/BGP 解析出的 topology_hierarchy(拓扑层级关系)。流量节点模式:该模式主要处理由采集的 NetFlow、sFlow 或 IPFIX等二进制遥测数据。专用的解码器依据协议模板,将原始二进制流还原为结构化的通信记录。该记录随后被范式化为一个标准的流量节点JSON 对象,其属性严格对应一次通信行为的抽象,包含:由源/目的IP、端口、协议构成的 five_tuple(五元组);由数据包统计(如字节数、包长分布、包间时延)计算得出的 statistical_features(统计特征向量);以 及(在 深 度 包 检 测 启 用 时)对 载 荷 进 行 分 析 后 生 成 的 36 payload_feature_vector(载荷二进制特征向量)。安全状态节点模式:该模式专注于对安全事件的精细化建模,其数据源为 WAF 拦截日志、IPS 告警、EDR 检测日志等。日志解析器运用正则表达式或 CEF/LEEF 等标准格式解析库,从文本日志中提取事件元数据。这些元数据被统一转换为一个标准的安全状态节点JSON 对象,用以封装一次独立的安全事件。其核心属性包括:event_source(事件来源)、event_type(事件类型)、severity(严重等级)、timestamp_event(事件时间戳)以及包含原始日志和关键实体的 event_details(事件详情)。通过此阶段,三种不同模态的数据被统一为三种定义清晰、结构固定的 JSON 模式,为后续的实例化流程提供了确定性的数据基础。(2 2)节点实例化节点实例化 在数据完成标准化映射后,这些规整的 JSON 对象将进入节点实例化阶段。一个高吞吐的消息队列会持续接收这些对象,并将其分发给一组按节点类型划分的并行工作进程(Worker Processes),以执行针对性的数据库事务。拓扑节点实例化:由于拓扑节点代表相对静态的物理或逻辑资产,其实例化ID通常采用设备的MAC地址或主机名等稳定标识符(topo-mac_address)。工作进程向图数据库发起的 MERGE(合并)查询,主要执行更新操作。例如,当接收到新的 SNMP 数据时,它会以“时间戳优先”的策略覆盖更新节点的 interface_status 属性;当接收到LLDP 报文时,它会向节点的 topology_hierarchy 属性中追加或更新邻 37 居信息。流量节点实例化:流量节点代表一次具体的通信行为,其实例化 ID通过对五元组和聚合时间窗口进行哈希生成(flow-hash(five_tuple)-time_window),以支持对流的聚合。其 MERGE 查询逻辑是条件性的:如果具有相同 ID 的节点已存在,则执行“原子性加法”来累积statistical_features 中的字节数与包计数值,并重新计算分布特征;如果不存在,则创建一个新的流量节点,并将当前 JSON 对象中的所有属性作为其初始值写入。安全状态节点实例化:安全状态节点代表一个独立的、已发生的安全事件,具有不可变性。其实例化 ID 直接取自源安全系统的事件UUID 或对原始日志的哈希(event-source_uuid)。因此,其数据库事务几乎总是 CREATE(创建)操作。工作进程为每一条告警日志创建一个全新的、独立的事件节点,确保每个告警在图模型中都有一个唯一的、不被后续数据覆盖的实体代表,从而保留了安全事件的完整性和原始性。通过这一系列类型化、差异化的实例化策略,原始的感知数据被高效、准确地转化为图中持久化、可查询的实体节点,并确保了各类节点属性的动态更新符合其内在的数据逻辑。(3 3)边标准化边标准化 在图中所有节点完成初步实例化之后,图模型构建流程进入边标准化阶段,其核心任务是为不同维度的数据关联关系定义统一、规范的连接模式。此阶段并非直接处理原始数据流,而是以图中已存在的 38 标准化节点为输入,通过一个规则引擎进行驱动。该引擎根据预设的关联逻辑,为三类核心关系流量路径、流关联与事件关联分别定义了标准化的边模式。流量路径边模式:此模式定义了“通信行为”与“网络设备”间的归属关系。其生成规则被设定为:匹配一个流量节点的五元组属性中的源或目的 IP 地址与一个拓扑节点的 IP 地址属性。该模式规定了边的方向性和强制属性,从而为所有“流量途经设备”的场景建立了统一的数据结构。流关联边模式:此模式旨在揭示不同通信行为间的内在逻辑。其规则集借鉴了流量画像分析理论,主要包括“共同源/目的关联”与“通信链关联”。例如,“通信链”规则定义为:当流量节点 A 的目的 IP与流量节点 B 的源 IP 严格相等,且二者时间戳之差小于预设阈值 T 时,则满足关联条件。该模式确保了所有跨流量的分析型连接都遵循一致的判定标准和时间约束。事件关联边模式:此模式用于连接一个抽象的“安全事件”与一个具体的“网络实体”(拓扑节点或流量节点)。其规则通过解析安全状态节点的事件详情触发,例如,提取 WAF 告警中的攻击源 IP,并将其与图中对应 IP 的拓扑节点或流量节点进行匹配。该模式的标准化在于,它将所有源自异构安全系统的告警,都统一转换为一种“事件-实体”的指向性关联。此阶段的最终产出是一套抽象的、机器可读的边定义集合。每个定义都清晰地描述了一种关系的判定逻辑、源/目标节点类型以及必 39 要属性,为后续自动化、规模化的边实例化流程提供了结构化的蓝图。(4 4)边实例化边实例化 边实例化的核心是将节点间的潜在关系,依据标准化模式,显式化、持久化为图数据库中的结构化连接。这是一个由关联引擎驱动的、持续运行的异步工作流。该引擎通过订阅图数据库的节点变更事件来触发操作,确保图的连接性随数据注入而动态演进。当一个新的节点被实例化或其关键属性被更新时,关联引擎会启动一系列并行的图查询事务。以一个新创建的“流量节点-A”为例:触发路径关联:引擎立即发起一个查询,在所有“拓扑节点”中寻找其 ip_address 属性包含“流量节点-A”的源 IP 的节点。一旦匹配成功,引擎便会生成一个基于流量路径边模式的实例,并向数据库提交一个 CREATE 请求,建立一条从“流量节点-A”到“主机-X”的有向边。触发流关联:同时,引擎会执行另一项查询,在图中检索与“流量节点-A”共享同一源 IP 且时间戳在 T 秒内的其他流量节点。对于每一个检索到的“流量节点-B”,引擎都会实例化一个基于流关联边模式的连接,其 relation_type 属性被赋值为“共同源”,随后创建这条双向或有向的边。触发事件关联:反之,当一个“安全状态节点-S”(如 SQL 注入告警)被创建时,引擎会解析其 event_details,提取出攻击目标 IP。随后,它会查询图中所有与该 IP 相关的拓扑节点和近期活跃的流量节点,并根据预设的置信度算法,选择最相关的节点(例如“服务器-40 Y”),最终实例化一条从“安全状态节点-S”指向“服务器-Y”的事件关联边。在实例化过程中,为保证数据一致性与查询效率,每条边同样会生成一个基于其源/目标 ID 和类型的唯一哈希 ID。数据库操作普遍采用 MERGE 语义:若具有相同 ID 的边已存在,则仅更新其属性;若不存在,则创建新边。通过这一系列自动化的事务操作,原本孤立的数据点被实时地编织成一张动态演进、关系丰富的全局网络图谱。4.4 可编排智能引擎可编排智能引擎 可编排智能引擎的核心目标是将图模型的推理结果转化为可执行的自动化流程,并根据网络状态变化动态调整策略逻辑,实现全流程智能化。该引擎的实现,依赖于分布式智能编排框架。通过动态的、可根据安全需求进行灵活编排的逻辑中枢,能够将统一图模型中的海量数据,转化为可行动的、实时的网络安全能力。41 4.4.1 智能编排框架智能编排框架组成组成 (1)GraphConfig GraphConfig 负责描述整个流水线的结构与配置,包括哪些计算器(Calculator)需要被实例化、它们之间的数据流连接方式,以及输入输出如何映射到外部资源等。在智能编排框架中,GraphConfig 通过解析 输入配置文件(pbtxt、YAML、JSON)来获取所需的配置信息,随后会将这些信息提供给 Graph 对象,用于构建完整的有向图模型。借助 GraphConfig,开发者可以方便地在框架中添加、移除或替换不同的计算节点,灵活地对数据流进行重定向,从而实现对异常流量检测与分类流程的可扩展管理。(2)Graph 图 4-5 智能编排框架组成 42 Graph 是根据 GraphConfig 创建并运行整个数据流图的核心实体。它会读取并解析 GraphConfig 中的节点定义及流连接信息,将各个 Calculator(包括自定义的 ONNXRunner、Classifier 等)组装成一个有向图。Graph 在执行时,会自动管理节点之间的数据流动及并行执行顺序。通过对数据包(Packet)进行时间戳管理,Graph 可以在时间维度上协调各节点的处理流程,以保证异常流量检测场景下的时延与准确度。(3)Scheduler 调度器(Scheduler)负责动态管理图中节点的执行顺序和资源分配。调度器基于数据依赖关系和节点的实时状态(如输入流的满足情况)决定节点的执行时机,而非固定优先级规则。所有节点的任务通过一个全局线程池分配,线程数量根据硬件能力自动调整。调度器确保高效利用系统资源,同时提供灵活的任务优先级配置,允许开发者为关键节点分配更多资源。在智能编排框架中,调度器进一步扩展,支持复杂的多线程环境,通过动态调整任务优先级和节点分组机制,确保流量分类等关键任务在高负载场景下的实时性和稳定性。(4)Node/Calculator 节点(Node)是执行数据处理的核心组件,每个节点实现为一个独立的计算器(Calculator),负责接收输入流或旁路数据包,进行处理后将结果传递到下游节点。源节点通常从外部读取数据流(如文件或网络流量),而非源节点则通过输入策略(如时间戳匹配)确定执行条件。框架保证节点的线程安全性,使每个节点在单线程中运行,43 从而避免数据竞争问题。在智能编排框架中,节点通过模块化设计实现预处理、特征提取和分类等功能,开发者可灵活替换或扩展节点,以适应不同的异常流量检测需求。模块化和灵活性使得框架能够快速适配新的任务,同时确保框架整体的高效性。(5)Task 在智能编排框架中,ONNX Runner 和 Classifier 都是对 Task 接口的具体实现,分别用于载入已训练模型和流量分类。通过继承和扩展 Task 接口,开发者可以插入自定义的业务逻辑模块,满足在智能编排框架中对预处理、特征提取和模型推理等功能的需求,同时保持框架设计的模块化和扩展性。4.4.2 核心核心功能功能 (1 1)弹性资源管理)弹性资源管理 弹性资源管理旨在根据工作负载的实际需求,动态地分配和调整资源,包括计算资源(如 CPU、内存、GPU)、存储资源以及网络资源等。它能够在工作负载增加时自动分配更多资源以保障服务性能,在工作负载减少时释放闲置资源,避免资源浪费。通过将集群资源按照组织架构进行分层,形成资源池,并以树形结构呈现,具体结构图如图 4-6 所示。根节点(Root)下有组织节点(Org),组织节点下又细分团队节点(Team)。每个层级的资源池都关联一组资源配置参数,包括资源预留(Reservation,R)、权益资源(Entitlement,E)、共享资源(Share,S)以及资源上限(Limit,44 L)。资源预留是为该层级强制保障的最小资源量,权益资源是默认应得的资源比例,共享资源可在层级间弹性借用,提高资源利用率,资源上限则用于防止单个层级过度占用资源。分布式计算引擎具备动态调整资源分配的能力。在 Kubernetes 集群中,当某个工作负载的资源需求发生变化时,分布式计算引擎可以实时感知并快速重新分配资源。例如,在机器学习训练中,随着训练数据量和模型复杂度的动态变化,分布式计算引擎能够为训练任务及时调配更多或释放多余的 CPU、GPU、内存等资源,相比 K8s 原生的资源管理方式,能更高效地利用集群资源,避免资源闲置或浪费。(2 2)异构集群支持)异构集群支持 图 4-6 弹性资源管理结构图 45 在包含不同类型硬件(如 CPU 和 GPU)的混合集群中,能够有效运行训练作业。一方面,通过将不需要 GPU 的任务卸载到 CPU 节点,实现资源的合理利用,比如在机器学习训练中,将数据加载和混洗等任务放在 CPU 节点处理,再将处理后的数据传输到 GPU 节点进行模型训练。另一方面,开发 GPU 过滤插件,让非 GPU Pod 和 GPU Pod 分别在 CPU 节点和 GPU 节点上运行,并采用不同的调度策略,如负载感知策略用于 CPU 节点的 Pod 分配,装箱调度策略用于 GPU 节点的 Pod 分配。(3 3)动态编排动态编排逻辑逻辑 引擎的动态编排逻辑体现在其执行过程并非一成不变,而是能够根据数据和中间结果进行自适应调整,这由其事件驱动的调度器(Scheduler)来实现。该调度器基于数据依赖关系来管理任务的执行,而非固定的时间线或优先级。这意味着,一个计算节点的执行,是由其所有上游输入数据全部“准备就绪”这一事件来驱动的。这种机制天然地支持了动态和并行的工作流。例如,当原始数据进入后,两个并行的特征提取节点会同时开始工作。调度器会监控它们的状态,只有当其中一个节点(例如,提取统计特征的节点)率先完成后,它才会立即将结果数据传递给下游对应的推理节点并触发其执行,而无需等待另一个并行的 46 特征提取任务结束。具体示例如图 4-7 所示。更进一步,这种事件驱动的机制允许实现条件执行和逻辑分支。一个分析工作流的走向,可以由上一个节点的计算结果来动态决定。例如,可以设计一个“初步风险评估”节点,它会先对流量进行快速分类并输出一个风险评分。调度器可以根据这个评分结果,将流量动态地导向不同的处理路径:如果评分高于阈值,则将数据发送到一个需要消耗大量计算资源的“深度载荷分析”节点进行精细化检测;如果评分较低,则可能只将其发送到一个简单的“日志记录”节点。通过这种方式,引擎的分析逻辑能够实时地根据威胁的实际情况进行调整,将宝贵的计算资源集中在真正高风险的事件上,这就是其“动态逻辑”的核心体现。图 4-7 并行特征提取和推理分析 47 4.5 插件化机制插件化机制 4.5.1 ONNX 与模型模块化与模型模块化 ONNX 作为一项行业性的开放标准,其根本目标是解决机器学习领域中不同开发框架与部署环境之间的壁垒问题,为模型提供统一且中立的中间表示。这一标准的确立,是实现 AI 模型工程化与模块化的逻辑起点。在缺乏统一标准的情况下,模型与其训练框架、特定的运行时环境深度绑定,形成了紧耦合的技术孤岛,极大地阻碍了模型的复用、迁移与迭代。ONNX 通过定义一套标准的计算图结构、算子集合和文件格式,充当了模型生产者与模型消费者之间的“技术契约”,确保了只要遵循此规约,模型便能脱离其原始开发环境,作为一个独立的、可预测的单元而存在。深入分析一个 ONNX 文件的内部结构,可以更清晰地理解其模块化设计。文件的核心是计算图协议,它容纳了模型的所有构成元素。首先,计算图的公共接口由其输入和输出字段严格定义,每个接口都详细描述了张量的名称、数据类型及维度信息,这构成了模块清晰的外部边界。其次,图的内部实现由一系列节点构成,每个节点都是一个标准算子的实例,并精确地指定了其输入输出关系,共同组成一个有向无环图来描述数据处理的全过程。至关重要的一点是,模型的所有已训练参数,如卷积核的权重、全连接层的偏置等,都通过初始化器被序列化并包含在文件之内,这使得 ONNX 文件成为一个自包含的模块,无需依赖外部文件即可完整地重建模型状态。48 基于上述特性,ONNX 模型在现代 MLOps 体系中扮演了关键的模块化角色。其兼容性与生命周期由算子集版本提供保障。每一个ONNX 模型都声明了其依赖的 opset 版本,而推理引擎则依据此版本来确保对模型中所有算子的正确支持,这为模块的版本迭代与向后兼容提供了可靠依据。因此,一个经过验证的 ONNX 模型可以被视为一个稳定的软件构件,能够被存储在构件仓库中进行版本化管理,并通过 CI/CD 流水线被独立地部署到任何支持其 opset 版本的云端或边缘设备上。这种标准化的封装与管理方式,正是将 AI 模型从研究原型转化为健壮、可靠的工程模块的核心所在。4.5.2 自定义扩展与编排模块化自定义扩展与编排模块化 虽然 ONNX 标准提供了丰富的算子集,但在实际应用中,为了实现差异化的业务逻辑或极致的性能优化,仅依赖标准算子往往是不够的。此时,就需要通过自定义扩展机制来增强系统的能力,而自定义算子是实现原子功能模块化的关键手段。当需要引入专有算法、标准库未覆盖的数据处理逻辑、或针对特定硬件(如 FPGA、ASIC)的计算核时,开发者可以创建自定义算子。此过程遵循严格的模块化设计:算子需被定义在唯一的领域标识之下以避免命名冲突;其核心计算逻辑通常采用 C 或 CUDA 等高性能语言实现,并被编译成独立于模型的动态链接库。推理引擎在运行时,通过指定的 API(如 ONNX Runtime 的 register_custom_ops_library)动态加载这类库,从而使新的运算能力对当前会话可用。这种机制将算子的实现与模型本身、与 49 推理引擎核心都进行了解耦,使算子库成为一个可被多个模型共享、可独立升级和分发的功能模块。在原子化的功能扩展之外,模块化的思想也体现在更高层次的逻辑组合与抽象上,这主要通过 ONNX 标准中的函数机制来实现。该机制允许开发者将计算图中的一系列基础算子子图构成,并封装成一个可复用的、更高阶的新算子。例如,一个包含多头自注意力、残差连接和层归一化的 Transformer 编码器层,可以被完整地定义成一个函数。在主计算图中,可以直接像调用普通算子一样调用这个函数节点,而无需关心其内部复杂的实现细节。这种方式不仅极大地简化了主计算图的结构,提升了可读性与可维护性,也为推理引擎在执行时提供了更大的优化空间,因为引擎可以将整个函数作为一个整体进行调度或编译优化。它与自定义算子的关系在于,自定义算子是引入新的、基础的计算能力,而函数则是对已有的计算能力进行组合与封装。这两种扩展机制的结合,最终为上层的流程编排系统提供了极大的灵活性,使其能够实现真正的编排模块化。编排系统现在可以调度和组合三种不同粒度的模块:代表完整业务流程的 ONNX 模型、提供原子功能的自定义算子库、以及包含抽象逻辑组合的ONNX函数。一个复杂的 AI 工作流可以被清晰地分解和构建,例如,可编排智能引擎首先调用一个预处理模块,该模块使用了一个加载自lib_preproc.so 的自定义算子来执行特殊的数据增强;其输出接着被送入一个大型的、使用标准算子的目标检测模型;最后,检测结果被传递给一个后处理模块,该模块内部调用了一个计算图协议定义的复杂 50 非极大值抑制(Non-Maximum Suppression,NMS)函数来筛选检测框。在整个过程中,可编排智能引擎负责管理模块间的数据依赖与流转,并确保每个阶段所需的扩展库都已被正确加载。这充分体现了通过精细化的模块分解与组合,构建复杂、健壮且易于演进的 AI 应用的能力。五五、框架落地与场景实践框架落地与场景实践 5.1 全网全网 DDoS 攻击检测与缓解方案攻击检测与缓解方案 5.1.1 案例背景案例背景 在数字化浪潮席卷全球的今天,分布式拒绝服务(Distributed Denial of Service,DDoS)攻击已演变为网络空间中最具破坏力、最常见的安全威胁之一。攻击的规模从 Gbps 级别跃升至 Tbps 级别,攻击手法也从单一的容量耗尽型攻击,演变为包含应用层攻击、脉冲式攻击、“低慢速”攻击在内的复杂混合型攻击。这种演进趋势对所有依赖网络提供服务的组织构成了严峻挑战,传统的 DDoS 防御方案在应对现代高级威胁时,其固有的局限性日益凸显。尽管市场上存在多种 DDoS 检测与缓解方案,但许多现有方案在设计理念和技术实现上仍存在明显的不足之处,主要体现在以下几个方面:检测视角的局限性:检测视角的局限性:传统的 DDoS 防御体系通常采用单点部署模 51 式,例如仅在数据中心入口或互联网出口部署检测设备。这种“管中窥豹”式的检测方式,缺乏对全网流量拓扑和时空特征的宏观洞察力。它或许能发现指向某一特定目标的攻击流量,但无法有效还原攻击在整个网络中的传播路径、影响范围以及潜在的溯源线索。当攻击者采用多点、分散的攻击源时,这种局部视角极易造成判断失误,难以形成全局性的、协同一致的防御策略。检测逻辑的滞后性:检测逻辑的滞后性:许多现有方案的核心检测逻辑仍然基于静态的流量阈值或固定的攻击特征规则。这种“一刀切”的方法在面对流量平稳、模式简单的网络环境时或许尚能应付,但在业务流量复杂多变、攻击手法不断翻新的今天则显得力不从心。对于“低慢速”攻击、加密流量攻击以及模拟合法用户行为的应用层攻击,静态规则往往会产生大量的误报和漏报。它无法建立动态的、与业务紧密结合的流量基线,更不用说利用深度学习等智能技术去识别那些隐藏在海量正常通信中的细微异常模式。响应机制的割裂性:响应机制的割裂性:在众多防御体系中,攻击的“智能检测系统”与“缓解响应系统”(如流量清洗设备)往往是两套独立的系统。当检测系统发现攻击后,通常只能生成告警,需要安全运维人员介入分析,再手动配置清洗策略或引流策略。这一过程不仅耗费宝贵的人力资源,更重要的是,在检测和缓解之间造成了数分钟甚至更长的“响应延迟”。在 DDoS 攻击分秒必争的战场上,这个延迟的“窗口期”足以让业务中断,造成不可挽回的损失,防御效果大打折扣。适应能力的匮乏性:随着物联网(IoT)设备的普及,新型僵尸网 52 络的规模和复杂性空前增长。同时,网络的带宽和复杂度也在持续提升。传统的 DDoS 防御设备在架构上可能难以扩展,无法满足大规模网络的性能需求。更重要的是,其固化的检测模型和功能更新缓慢,面对层出不穷的新型攻击载体和技术,常常显得“捉襟见肘”,缺乏持续自适应学习和演进的能力。综上所述,一个缺乏全网视角、依赖静态逻辑、响应流程割裂且适应性差的防御体系,已无法有效应对当前复杂、智能的 DDoS 威胁格局。因此,业界迫切需要一种新一代的智能防御方案,它必须能够实现对全网流量的全面、快速、精确识别,并指导形成协同、高效的自动化防御闭环。5.2.2 解决方案解决方案 针对上述背景中提到的传统 DDoS 防御方案的种种局限,我们基于网络原生智能框架,设计并部署了全网智能 DDoS 检测与协同防御体系。该方案从根本上摒弃了网络与安全相互割裂的传统模式,将全网流量的精准检测、攻击行为的智能决策与阻断等自动化缓解手段深度融合,实现了从“秒级检测”到“秒级响应”的全流程自动化闭环。整体架构如下图所示,其核心逻辑是:通过遍布全网的采集点实时捕获流量数据,由智能分析引擎进行深度学习与行为建模分析,一旦识别攻击,可通过安全网络数据智能平台协同联动网络中智能分析引擎,自动执行流量精准阻断等防御策略并下发到可编程交换机进行DDoS 攻击缓解。53 图 5-1 全网 DDoS 攻击检测与缓解方案示意图(1)数据采集数据采集 为实现对网络核心流量的全面洞察,方案采用了一种高保真、非侵入式的数据采集策略。针对可编程交换机这类采用专用芯片进行高速转发的核心网络硬件,可编程交换机通过其旁路镜像功能进行数据采集。该技术将所有流经可编程交换机的实时流量,完整地复制一份,并旁路发送至一台专用的分析服务器作为智能分析引擎。部署在该服务器上的轻量级分析代理负责接收并处理这些海量的镜像数据,进行后续的抽样与分析。这种方式的优势在于对可编程交换机本身的转发性能做到零侵扰,在不影响主干网络正常运行的前提下,获取了最原始、最完整的流量全貌,为后续的智能分析与精准决策提供了坚实的数据基础。(2 2)多维数据驱动的智能攻击识别理解多维数据驱动的智能攻击识别理解 在完成全面数据感知后,汇聚而来的数据将注入系统的“大脑”智能分析引擎,进行深度理解与攻击识别。该引擎运用先进的行为 54 分析算法,对流量进行精细化解构,能够从协议类型、报文长度、源端口随机性等多个维度精准刻画攻击特征。在混合了正常业务的复杂场景下,智能分析引擎更能体现其智能性,它通过关联分析流量模式与设备性能指标,能够准确地将恶意攻击从海量背景流量中剥离出来,显著降低了传统方案的误报与漏报率。这一阶段的核心任务,是将纷繁复杂的原始数据转化为清晰、准确、可操作的攻击事件情报。(3 3)自动化、精准的防御策略生成自动化、精准的防御策略生成 一旦智能分析引擎确认了攻击事件,智能分析引擎便无缝衔接到决策阶段,自动生成高度精准且可解释的防御策略。这些策略并非宽泛的封堵指令,而是包含了明确五元组信息和处置动作的精细化规则。系统的决策能力足以应对大规模、分布式的复杂攻击。即便面对同时攻击数百个不同目标的场景,智能分析引擎依然能为每一个被攻击 IP独立生成并下发对应的防御策略,实现“点对点”的精确保护。这个自动化、智能化的决策过程,是连接威胁情报与有效防御之间的关键桥梁。(4 4)端到端、闭环化的协同联动响应端到端、闭环化的协同联动响应 流程的最后一步是将决策转化为行动,通过自动化的协同响应机制,完成对威胁的闭环处置。智能分析引擎生成的防御策略被设计为可直接下发至可编程交换机,并自动转化为标准的访问控制列表等设备可执行的规则。这些规则一旦生效,便会立刻对匹配攻击特征的恶意流量进行实时过滤与阻断。更重要的是,这是一个迭代式的防御过程。当最主要的攻击流量被阻断后,原先被掩盖的次要攻击会暴露出 55 来,随即被系统在新的检测周期中捕获并清除,从而实现对攻击流量的深度、持续性清洗,确保了业务的连续性和网络的安全性。5.2 路由安全一体化解决方案路由安全一体化解决方案 5.2.1 案例背景案例背景 作为互联网的关键基础设施,域间路由系统安全是网络空间安全的重要基石。以 BGP 为基础协议的全球互联网经过 50 多年的蓬勃发展,逐步从计算机互联网、消费互联网向产业互联网演进,成为全社会数字化基础设施,因而对安全可信的路由服务诉求越来越强烈。作为互联网数据传输的核心,互联网不仅在数据转发性能方面,而且在拓扑结构、健壮性、安全性等方面也都高度依赖域间路由系统。域间路由系统对于整个互联网的可靠稳定运行具有重要意义。传统的应对方案在面对控制平面威胁时,通常面临以下挑战:响应机制滞后,缺乏时效性响应机制滞后,缺乏时效性:安全事件的处置严重依赖网络工程师手动排查、定位问题、登录设备执行命令行进行策略封堵,整个过程耗时良久,无法在攻击发生的第一时间进行有效遏制。系统能力割裂,缺乏联动系统能力割裂,缺乏联动:安全监控系统与网络管理系统相互独立,安全分析产生的告警无法自动转化为网络侧的防御策略,缺乏有效的闭环协同机制。控制平面状态的可见性缺失控制平面状态的可见性缺失:对全网的 BGP 路由状态缺乏全面、实时、精细的可见性,难以快速识别异常路由的来源和影响范围。56 为了应对上述挑战,构建一个能够主动感知、智能决策、并自动处置路由威胁的现代化防御体系迫在眉睫。本案例将介绍一种基于“安全网络一体化”理念的创新解决方案 5.2.2 解决方案解决方案 针对上述背景中提到的 BGP 路由攻击场景,我们结合网络原生智能架构,设计并部署了一套以“安全网络一体化平台”为核心的闭环路由安全解决方案。该方案摒弃了传统安全与网络分离的模式,将威胁感知、智能分析与网络配置变更融为一体,实现了从“发现”到“处置”的全流程自动化。整体架构如图 5-2,方案的核心逻辑是:通过标准化的数据采集通道实时监控路由器集群的控制平面状态,由平台进行智能分析决策,并经由标准化的安全配置通道实现对恶意流量的精准、自动化处置。图 5-2 路由安全一体化解决方案示意图 57 具体实现步骤如下:(1 1)实时感知:基于协议的深度数据采集实时感知:基于协议的深度数据采集 首先,模拟终端作为自动化测试与验证工具,按照预设方案向网络中发起一次可控的路由劫持攻击。当这条恶意的 BGP 路由更新报文抵达网络边缘的路由器集群时,路由器集群在根据 BGP 协议进行常规路由计算的同时,也立即履行其作为“感知探针”的职责。它通过BMP 协议,将这条包含了攻击特征的原始 BGP 更新报文,实时、无损地传送安全网络一体化平台。(2 2)智能智能理解理解:基于可信基准的自动化检测:基于可信基准的自动化检测 原始数据流抵达安全网络一体化平台后,便进入一条自动化的内部处理流水线。数据采集与适配模块将其转换为平台内部的统一路由事件模型,并分发至核心分析模块与数据存储与管理模块。核心分析模块作为分析中枢,会立即执行多维度检测:它将该事件的源 AS、前缀等关键属性,与数据存储与管理模块中预设的RPKI源AS授权、ASPA 商业关系等可信基准进行交叉验证,最终将此事件精准地判定为一次“路由劫持”攻击,并生成结构化的告警。(3 3)协同决策:融合网络上下文的策略生成协同决策:融合网络上下文的策略生成 “路由劫持”的分析结论会立刻被送至决策与处置编排模块。为确保处置的精准性,该模块可调用与大网控制器的协同接口,查询受影响路由器的网络拓扑、设备角色等基础上下文信息,以丰富决策依据。在获得了完整的“安全告警 网络上下文”信息后,该模块才最终决策出最佳的处置方案,并自动生成一个协议无关的抽象处置指令,例 58 如一条用于精确丢弃恶意流量的 BGP FlowSpec 规则意图。(4 4)闭环闭环响应响应:基于标准化接口的自动化执行:基于标准化接口的自动化执行 编排好的抽象指令通过标准化的安全配置通道,被下发至作为执行单元的目标路由器集群。平台的南向通道适配器会将该指令翻译为具体的 NETCONF 配置或 BGP FlowSpec 宣告,并部署到设备。路由器接收到指令后,会即刻应用此安全策略,在硬件层面快速、精准地阻断由劫持路由所引入的非法流量,至此便完成了一次从攻击发生到威胁解除的自动化闭环处置。与此同时,整个处理过程的所有状态都会被实时汇聚到平台的管控与呈现模块,网络管理员可以通过图形化的 Web UI 清晰地监控此次安全事件的完整生命周期,实现了对路由安全的“可管、可控、可见”。六、六、架构生态与未来展望架构生态与未来展望 6.1 模块化开放的架构、生态与接口模块化开放的架构、生态与接口 ONNX 作为 AI 领域的开放标准,其模块化设计不仅体现在模型封装和扩展机制上,更延伸至系统级架构、生态建设和接口规范,共同构筑了一个前沿、协作的 AI 框架体系,随着 LLM、边缘计算和异构硬件加速的快速发展,ONNX 已演变为支持多模态 AI 和高效部署的核心枢纽。本小节将从模块化开放的架构、生态以及接口三个维度详细阐述 ONNX 如何实现 AI 系统的互联互通与持续创新,确保模 59 型在动态环境中无缝迁移、优化和扩展。6.1.1 ONNX 的开放架构的开放架构 ONNX 的架构设计遵循模块化开放原则,以计算图(Graph)为核心,构建了一个松耦合、可扩展的系统框架。这一架构将模型表示、执行引擎和硬件适配层解耦,允许开发者在不修改核心组件的情况下注入新功能。2025 年的最新发展中,ONNX v1.18.0 及后续迭代引入了对动态形状和量化支持的增强30,进一步适应了 LLM 和实时 AI 场景的需求。例如,通过 MLIR-based Compiler 的集成31,ONNX 架构现在支持更高效的中间表示编译,允许模型在编译时进行跨框架优化,减少了从训练到推理的转换开销。在架构层面,ONNX强调分层模块化:顶层是模型层,使用Protobuf序列化的 GraphProto 定义静态计算图,包括节点(NodeProto)、初始化器(TensorProto)和版本声明(OperatorSetIdProto),这确保了模型的自包含性和可移植性32。中层是运行时层,以 ONNX Runtime 为核心,支持插件化后端适配器(如 CPU、GPU、NPU),开发者可动态加载自定义执行提供者(Execution Providers),如 Qualcomm 的 QNN GPU backend33,实现针对 Adreno GPU 的硬件加速。底层是硬件抽象层,通过开放接口连接异构设备,支持从云端到边缘的部署。6.1.2 ONNX 的生态体系的生态体系 ONNX 的生态体系是一个由开源社区、框架提供商、硬件厂商和 60 企业用户共同构建的协作网络,2025 年已扩展至涵盖 LLM、边缘 AI和多模态应用的全面链条34。作为 LF AI&Data 基金会的毕业项目,ONNX 采用 Apache 2.0 许可,促进全球贡献者参与,年会如 2025 ONNX Annual Meetup 展示了 steering Committee 的更新,包括对大型模型 IR 的增强支持。在框架生态方面,ONNX 获得了广泛兼容:PyTorch 通过torch.onnx.export 无缝导出模型,TensorFlow 集成 tf2onnx 转换器,其他如 MXNet、Scikit-learn 和 PaddlePaddle 也提供插件支持。推理侧,ONNX Runtime 作为枢纽,与 Azure ML、AWS SageMaker 和 Google Cloud AI 集成;硬件伙伴如 NVIDIA(TensorRT-ONNX)、Intel(OpenVINO)、Qualcomm(SNPE-ONNX)和 AMD 积极贡献优化模块35,确保模型在 GPU、NPU 上的高效运行。6.1.3 ONNX 的接口机制的接口机制 ONNX 的接口机制标准化了模块间交互,确保互操作性和扩展性。核心是 Protobuf 协议接口,用于模型序列化,包括 GraphProto 定义计算图、TensorProto 处理张量数据,以及 OperatorSetIdProto 管理版本。这些接口提供精确语义,支持任何工具解析 ONNX 文件,而无需自定义适配。运行时接口以 ONNX Runtime API 为主,支持多语言(如 Python、C 、Java、C#),例如 SessionOptions 配置自定义算子加载,Run 方法标准化推理流程。扩展接口如CustomOpApi允许注册自定义算子,61 ONNXIFI 提供后端集成规范,支持专有硬件加速。6.2 迈向全面零信任及下一代迈向全面零信任及下一代 SASE 与与 SD-WAN 在网络原生智能的驱动下,下一代 SD-WAN 已远超第一代产品优化连接和降低成本的范畴,演变为一个具备预测和自愈能力的智能网络平台36。6.2.1 具备预测与自愈能力的下一代具备预测与自愈能力的下一代 SD-WAN 在网络原生智能的驱动下,下一代 SD-WAN 的使命已远超第一代产品优化连接和降低成本的范畴。它演变为一个具备认知能力的智能图 6-1 SWAN 组网结构和流程步骤 62 网络平台,成为整个 SASE 架构坚实、敏锐的“神经网络系统”37。其核心的升级体现在三个层面:首先,它具备了从被动响应到主动保障的预测能力,能够预见并规避网络质量问题;其次,它实现了从简单故障切换到业务自愈的升华,能够在故障发生时进行智能化的路径重规划与策略自适应;最后,它完成了从执行静态规则到理解业务意图的转变,能够为关键应用做出自主的、以体验为中心的决策。SD-WAN 的核心变革在于其预测能力,它通过在网络边缘部署轻量级探针并结合 AIOps 平台,对海量的遥测数据进行持续学习,从而将网络管理从被动响应转变为主动保障38。当网络出现故障时,下一代 SD-WAN 能够实现真正的网络自愈,其内涵远比传统的故障切换丰富。这一能力建立在对全网拓扑、业务策略和实时状态的全局视野之上39。例如,当某分支机构的核心路由器意外宕机,AIOps 平台能立即定位故障根源为硬件失效,并自主进行一次全局的路径重规划,可能会将高优先级的 ERP 流量引导至高质量 MPLS 链路,而将普通办公流量分流至多条互联网宽带,避免单点拥塞。同时,系统会自动将原路径关联的所有安全与 QoS 策略动态迁移并应用到新路径上,在毫秒级内完成业务恢复,最大限度地保障了业务的连续性。此外,下一代 SD-WAN 的核心是基于应用意图的自主决策,彻底将网络管理从繁琐的微观配置中解放出来。平台能够深度识别上千种应用的“指纹”,并理解其对网络的独特需求。在应对某突发性国家级安全事件时,指挥中心的 IT 管理员不再需要手动配置复杂的 QoS 和路由策略,只需声明最高优先级的业务意图:“为国家指挥中心、一线 63 移动单位和无人机侦察图像回传之间,建立一条高带宽、低延迟、抗干扰的加密通信线路”。系统接收到此意图后,便会自主地编排网络资源,动态聚合 5G、卫星和专线链路,应用军工级加密标准,并强制征用网络带宽,确保指挥、控制和情报(C2I)数据流的绝对优先传输。6.2.1 实现全面零信任的实现全面零信任的的下一代的下一代 SASE 如果说下一代 SD-WAN 是智能的“循环系统”,那么由网络原生智能驱动的下一代 SASE 就是智能的“免疫系统”40。它将零信任原则从一系列需要人工维护的静态配置规则,转变为一个动态的、能够自主执行并持续进化的安全能力。其基石是一个将网络拓扑、流量行为、用户身份、设备状态、应用漏洞及威胁情报等所有信息统一建模的全局安全知识图谱。基于此图谱,网络原生智能引擎能够进行深度推理,发现隐藏在海量数据中微弱的风险“信号”,从而将安全防御从被动响应提升至主动预测41。例如,通过发现“同一身份、多设备、异常行为”之间的隐藏关联,系统能预测横向移动攻击的早期侦察阶段;或是在新漏洞披露后,立即模拟并找出潜在的攻击路径,让防御者抢占先机。这是对零信任“假设泄露”原则的有效实践,当威胁被识别或预测后,下一代 SASE 的响应是自动化的、闭环的,从而实现安全层面的自愈。这个“从检测到阻断的原生响应闭环”意味着,当系统检测到一台属于国家重点航空航天研究机构高级研究员的工作站(高价值资产)64 出现异常时:EDR 终端检测到一个伪装成系统进程的恶意软件,正与某个已知具有国家背景的 APT 组织的 C2 服务器进行加密通信,同时该研究员的账户正尝试访问其数月未曾接触的涉密项目数据。AI 引擎识别出这是典型的 APT 攻击模式后,会自主决策并执行一套组合拳式的缓解策略:首先,通过微隔离技术将该工作站的端口在交换机层面进行隔离,阻断横向移动;同时,将恶意 C2 域名推送至云端 SWG,全局阻断所有用户的访问;最后,通过 API 调用终端 EDR 方案,强制终止恶意进程,并自动创建包含所有上下文的工单给 SOAR 平台,以供安全分析师复核。全面零信任的核心是“永不信任,始终验证”,而下一代 SASE 通过自主决策,让这个框架成为一个“活的”、自适应的现实42。每一次访问请求,都不再是简单地匹配一条静态规则,而是由系统基于其统一知识图谱提供的丰富实时上下文进行一次即时的、自主的风险评估与访问决策。例如,一个刚刚通过多因素认证的工程师在访问常规文档时可能畅通无阻,但当其设备风险评分因后台检测到异常进程而略微升高时,系统可能会在他试图访问核心代码库时,自主决策要求其进行一次额外的生物识别验证。这种动态、上下文感知的访问控制,使得“最低权限访问”原则能够被前所未有地动态、精准地执行。这种架构还将管理员的角色从“规则配置者”转变为“业务意图声明者”。他们只需用接近自然语言的方式定义高级目标,例如:“确保公司对欧盟公民数据的处理完全符合 GDPR 法规要求。”网络原生智能定的智能分析引擎则会自主地将这一合规意图翻译并编排成一 65 系列具体的、跨越多厂商、多地域设备的安全与网络配置:它会自动发现并标记所有包含欧盟个人身份信息(PII)的数据库和云存储;生成 ZTNA 策略,确保只有位于欧盟境内且属于特定访问组的用户才能访问这些数据;创建 DLP 和防火墙规则,阻止任何被标记的 PII 数据传输至欧盟以外的地区,并持续监控配置漂移,以始终满足最初声明的合规意图。6.3 构建可验证的安全智能体系构建可验证的安全智能体系 可验证的安全智能体系是融合网络原生智能架构,通过分层架构实现自动化威胁检测与响应,并具备可追溯、可解释、可审计、可靠性质的网络安全防护系统43。该定义以网络原生智能为核心支撑,强调通过智能化手段提升安全运营的自动化水平,同时通过可验证性相关机制保障体系的可信度与可控性。从技术内涵来看,体系的核心特征体现在三个层面:其一,技术架构层面,依托图驱动智能编排框架,实现对海量安全数据的实时处理与深度挖掘,支持从被动防御向主动预测的转变;其二,能力特性层面,具备自学习、自适应与自优化能力,能够基于历史威胁数据与实时情报动态调整安全策略,例如通过机器学习模型持续优化检测规则以应对新型攻击手段;其三,安全性质层面,以可验证性为核心,涵盖可追溯、可解释、可审计等关键属性44。其中,可验证性指信息在传输与处理过程中可被验证来源合法性与完整性,例如通过公钥基础设施(Public Key Infrastructure,PKI)系统颁发数字证书时,可借 66 助证书链验证确保实体身份的合法性;可审计性作为可验证性的重要组成部分,要求对所有网络操作与数据访问行为进行全面记录与追溯,例如记录用户登录、数据查询等操作日志以便事后审查。与传统安全体系相比,该体系的核心差异体现在两方面:一是动态调整能力的提升,传统安全体系多依赖人工配置的静态规则,难以应对快速演变的威胁环境,而可验证的安全智能体系通过 AI 驱动的自学习机制,实现安全策略的自动化优化与动态适配,例如基于攻防对抗数据实时更新检测模型;二是全流程可验证性的强化,传统安全机制虽具备部分审计功能,但缺乏对威胁检测、响应、处置全流程的系统性验证框架,该体系通过整合可追溯、可解释、可审计等性质,构建从数据采集到决策输出的完整可信链路45,例如通过操作日志的规范化管理与不可篡改设计(如基于区块链技术的存证方案)增强数据可信度,确保安全事件的可追溯与责任可认定。这种特性使得体系在金融、能源等关键领域的复杂环境中能够有效应对多维度、高持续性的安全威胁,提升整体防护效能。67 七、结语七、结语 本白皮书以应对数字化时代安全挑战为核心,系统阐述网络原生智能的设计理念、技术架构与实践场景,深入解析感知-理解-决策-响应的闭环机制,并通过全网 DDoS 攻击检测与缓解、路由安全等场景验证架构可行性,为安全网络一体化提供智能技术支撑。网络原生智能发展需由动态威胁防御需求与智能技术演进双向驱动。紫金山实验室联合产业伙伴在业界首次实现基于图驱动引擎的意图化安全编排框架,通过基于 YANG/NETCONF 的可编排安全能力按需投送理念,引领网络原生智能的技术革新。我们期待通过本白皮书的探索,凝聚更多行业力量。诚邀全球产学研伙伴携手突破轻量化 AI 推理、零信任架构融合等关键技术,共建具备自适应防护、可验证决策与全域协同能力的下一代智能安全网络基础设施,护航数字经济高质量发展。68 附录 A:术语与缩略语 中文名称中文名称 英文缩写英文缩写 英文全拼英文全拼 访问控制列表 ACL Access Control List 人工智能 AI Artificial Intelligence 智能运维 AIOps Artificial Intelligence for IT Operations 高级持续性威胁 APT Advanced Persistent Threat 自治系统 AS Autonomous System 自治系统提供商授权 ASPA Autonomous System Provider Authorization 边界网关协议 BGP Border Gateway Protocol BGP 监控协议 BMP BGP Monitoring Protocol 指挥、控制与情报 C2I Command,Control,and Intelligence 有向无环图 DAG Directed Acyclic Graph 分布式拒绝服务攻击 DDoS Distributed Denial of Service 域名生成算法 DGA Domain Generation Algorithm 数据防泄露 DLP Data Loss Prevention 数据处理单元 DPU Data Processing Unit 端点检测与响应 EDR Endpoint Detection and Response 通用数据保护条例 GDPR General Data Protection Regulation 基于虚拟机监控器的安全 HBS Hypervisor-Based Security 入侵防御系统 IPS Intrusion Prevention System 物联网 IoT Internet of Things 大语言模型 LLM Large Language Model 管理信息库 MIB Management Information Base 机器学习运维 MLOps Machine Learning Operations 网络流 NetFlow Network Flow 69 网络原生智能 NNI Network-Native Intelligence 神经网络处理单元 NPU Neural Processing Unit 开放神经网络交换 ONNX Open Neural Network Exchange ONNX 硬件集成接口 ONNXIFI ONNX Interface for Integration 个人身份信息 PII Personally Identifiable Information 服务质量 QoS Quality of Service 融合以太网上的远程直接内存访问 RoCE Remote Direct Memory Access over Converged Ethernet 资源公钥基础设施 RPKI Resource Public Key Infrastructure 数据采集与监视控制系统 SCADA Supervisory Control and Data Acquisition 安全访问服务边缘 SASE Secure Access Service Edge 软件定义网络 SDN Software-Defined Networking 软件定义广域网 SD-WAN Software-Defined Wide Area Network 分段路由 IPv6 SRv6 Segment Routing IPv6 安全 Web 网关 SWG Secure Web Gateway Web 应用防火墙 WAF Web Application Firewall 网络配置协议建模语言 YANG Yet Another Next Generation 零信任网络访问 ZTNA Zero Trust Network Access 70 参考文献 1 白宫科技政策办公室.国家人工智能研发战略计划:2023 更新版R.华盛顿:White House Office of Science and Technology Policy,2023.2 中共中央,国务院.关于构建更加完善的要素市场化配置体制机制的意见EB/OL.(2020-04-09)2024-12-01.http:/ 潘教峰,万劲波.构建现代化强国的十大新型基础设施J.中国科学院院刊,2020,35(5):545-554.国家发展改革委,中央网信办,工业和信息化部,等.东数西算工程实施方案EB/OL.(2022-02-17)2025-07-31.http:/ 国家发展改革委.关于深入实施东数西算工程加快构建全国一体化算力网络体系的实施意见EB/OL.(2024-01-01)2024-12-01.https:/ LI J,LIU L,ZHAO L,et al.Cyber security meets artificial intelligence:a surveyJ.Frontiers of Information Technology&Electronic Engineering,2018,19(12):1462-1474.6 Wu J,Li R,An X,et al.Toward native artificial intelligence in 6G networks:System design,architectures,and paradigmsJ.arXiv 71 preprint arXiv:2103.02823,2021.7 Banchs A,Fiore M,Garcia-Saavedra A,et al.Network intelligence in 6G:Challenges and opportunitiesC/Proceedings of the 16th ACM Workshop on Mobility in the Evolving Internet Architecture.2021:7-12.8 Wu W,Zhou C,Li M,et al.AI-native network slicing for 6G networksJ.IEEE Wireless Communications,2022,29(1):96-103.9 华为技术有限公司.AI 原生 6G 网络的数据面设计EB/OL.2024-12-01.https:/ 10 DAEMON Consortium.DAEMON:Network intelligence aDAptive sElf-Learning MObile NetworksEB/OL.2024-12-01.https:/h2020daemon.eu/.11 YANG Y,WU J,CHEN T,et al.Task-oriented 6G native-AI network architectureJ.IEEE Network,2023,37(6):272-279.12 Shi Y,Yang K,Jiang T,et al.Communication-efficient edge AI:Algorithms and systemsJ.IEEE communications surveys&tutorials,2020,22(4):2167-2191.13 AGRAWAL A,KEDIA N,PANWAR A,et al.Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-ServeC/18th USENIX Symposium on Operating Systems Design and Implementation(OSDI 24).Santa Clara:USENIX Association,2024:72 1-18.14 SONG L,HU X,ZHANG G,et al.Networking systems of AI:On the convergence of computing and communicationsJ.IEEE Internet of Things Journal,2022,9(14):12520-12540.15 Song L,Hu X,Zhang G,et al.Networking systems of AI:On the convergence of computing and communicationsJ.IEEE Internet of Things Journal,2022,9(20):20352-20381.16 傅懋钟,胡海洋,李忠金.面向 GPU 集群的动态资源调度方法J.计算机研究与发展,2023,60(6):1308-1321.DOI:10.7544/issn1 000-1239.202220149 17 MOKHTAR B.AI-enabled collaborative distributed computing in networked UAVsJ.IEEE Access,2024,12:89456-89470 18 JOY M,VENKATARAMANAN S,AHMED M.AIOps in Action:Streamlining IT Operations Through Artificial IntelligenceJ.International Journal of Artificial Intelligence,2024,12(3):45-62.19 BACCOUR E,MHAISEN N,ABDELLATIF A A,et al.Pervasive AI for IoT applications:A survey on resource-efficient distributed artificial intelligenceJ.IEEE Communications Surveys&Tutorials,2022,24(4):2182-2204.20 IMT-2030(6G)推进组.6G 网络原生 AI 技术需求白皮书R.北京:IMT-2030(6G)推进组,2022.21 JUNG B C.Toward artificial intelligence-native 6G servicesJ.73 IEEE Vehicular Technology Magazine,2024,19(4):18-25.22 CISCO Systems.What Is AIOps?Artificial Intelligence for IT OperationsEB/OL.2024-12-01.https:/ NGUYEN D C,DING M,PHAM Q V,et al.Federated learning meets blockchain in edge computing:Opportunities and challengesJ.IEEE Internet of Things Journal,2021,8(16):12806-12825.24 LIN X.Artificial intelligence in 3GPP 5G-advanced:A surveyJ.arXiv preprint arXiv:2305.05092,2023.25 商兴宇,刘小欧,杨明川.人工智能原生网络发展趋势研究J.信息通信技术与政策,2023,49(8):1-8.26 NEPTUNE AI.How to optimize GPU usage during model trainingEB/OL.2024-12-01.https:/neptune.ai/blog/optimizing-gpu-usage-during-model-training-with-neptune.27 ZHANG Y,MENG Q,HU C,et al.Revisiting congestion control for lossless ethernetC/21st USENIX Symposium on Networked Systems Design and Implementation(NSDI 24).Boston:USENIX Association,2024:1-18.28 PENG Y,WEI H,ZHONG X,et al.Barre:Empowering simplified and versatile programmable congestion control in high-speed AI clustersC/2025 USENIX Annual Technical Conference(ATC 25).Santa Clara:USENIX Association,2025:1-16.74 29 LIU S,WANG Q,ZHANG J,et al.NetReduce:RDMA-compatible in-network reduction for distributed DNN training accelerationJ.arXiv preprint arXiv:2009.09736,2020.30 ONNX Community.ONNX v1.18.0 Release NotesEB/OL.2025-01-15.https:/ LE A.An MLIR-based Compiler for ONNX AI modelsC/2025 AsiaLLVM Developers Meeting.2025.32 JOSHUA C,KARKALA S,HOSSAIN S,et al.Cross-Platform Optimization of ONNX Models for Mobile and Edge DeploymentJ/OL.ResearchGate,20252025-01-15.https:/ Qualcomm Technologies Inc.Unlocking the power of Qualcomm QNN Execution Provider GPU backend for ONNX RuntimeEB/OL.2025-05-10.https:/ NEZAMI Z,HAFEEZ M,DJEMAME K,et al.Generative AI on the edge:Architecture and performance evaluationJ.arXiv preprint arXiv:2411.17712,2024.35 NAAYINI P.Building ai-driven cloud-native applications with kubernetes and containerizationJ.International Journal of Scientific Advances(IJSCIA),2025,6(2):328-340.75 36 IPC.The Top 5 SD-WAN Trends and Advancements for 2025EB/OL.2025-01-15.https:/ SAXENA N,YADAV A R,TALWANDI N S.Beyond Intent:A Unified AI Framework for Self-Optimizing,Self-Securing,and Self-Healing Networks Using Generative AI,Federated Learning,and Neuromorphic ComputingJ.IJSAT-International Journal on Semantic Web and Information Systems,2025.38 DAVID S.AI-Driven Network Management Systems:A Review of Intelligent Monitoring,Predictive Maintenance,and Self-Healing CapabilitiesEB/OL.ResearchGate,20252025-01-15.https:/ SHAJARIAN S,KHORSANDROO S,ABDELSALAM M.A Survey on Self-Running Networks:Concepts,Components,Opportunities,and ChallengesJ.Authorea Preprints,2024.40 Zscaler Inc.5 Predictions for Zero Trust and SASE in 2025EB/OL.2025-01-15.https:/ FOPA MAMENE M.Secure Access Service Edge(SASE):Architecture,Implementation,and Performance EvaluationD.2024.42 AJISH D.The significance of artificial intelligence in zero trust technologies:a comprehensive reviewJ.Journal of Engineering 76 Science and Innovative Technology,2024.43 NWEJE U.Blockchain Technology for Secure Data Integrity and Transparent Audit Trails in CybersecurityJ.International Journal of Research and Publication Reviews,2024.44 QADER K S,CEK K.Influence of blockchain and artificial intelligence on audit quality:Evidence from TurkeyJ.Heliyon,2024,10(10):e30166.45 BESHARAT P.AI and Blockchain,Enhancing Security,Transparency,and IntegrityEB/OL.ResearchGate,20242025-01-15.https:/

    发布时间2025-08-22 83页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025服务生成算力网络白皮书(66页).pdf

    未来网络技术发展系列白皮书(2025)服务生成算力网络白皮书第九届未来网络发展大会组委会2025年8月 版权声明版权声明 本白皮书版权属于紫金山实验室、中国联合网络通信有限公司研究院所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:紫金山实验室、紫金山实验室、中国联合网络通信有限公司研究院中国联合网络通信有限公司研究院”。否则将违反中国有关知识产权的相关法律和法规,对此紫金山实验室、中国联合网络通信有限公司研究院有权追究侵权者的相关法律责任。编写说明编写说明 主主编单位:编单位:紫金山实验室、中国联合网络通信有限公司研究院 参编单位:参编单位:北京邮电大学、中国铁塔股份有限公司 中移(杭州)信息技术有限公司、中国电力科学研究院有限公司 江苏方天电力技术有限公司、中国工业互联网研究院 江苏省未来网络创新研究院 指导专家:指导专家:刘韵洁 唐雄燕 黄 韬 曹 畅 谢人超 周 飞 智绪龙 柳 旭 魏 亮 参编人员:参编人员:周晓茂 贾庆民 张 岩 刘 辉 王立文 吴春鹏 王 岳 叶青河 丁成成 汤雅婷 俞芳芳 谢高畅 谭 跃 马力俊 闫亚旗 魏 华 刘文睿 刘永生 曹云飞 王子涵 黄 祥 吴 媚 贾 倩 范子瑜 彭开来 邵子豪 王 壮 王志浩 徐 鹍 李振红 陈娟娟 第九届未来网络发展大会白皮书服务生成算力网络白皮书 I 前 言 算力是数字化时代的基础设施和核心动能,是全社会智能化转型的基石。随着云计算、大数据、物联网、边缘计算等技术的兴起,以及各行各业在数字化转型过程对网络、计算、存储等多维资源需求的驱动,算力网络应运而生。作为一种结合算力和网络资源的新型信息基础设施,算力网络通过将动态分布的计算和存储资源互联,将网络、存储和算力等多维度资源的统一协同调度,实现连接和算力在网络的全局优化。算力网络提供了一种弹性、高效、可扩展的服务模式,使得海量的应用能够按需、实时调用分布式计算资源,为数字化转型业务提供更加经济、高效、泛在的算力供给方案。在算力网络推进各行业数字智能化转型过程中,随着行业应用涉及的需求逐渐多样化、模型更加复杂化,行业应用中新业务、新需求、新场景的多样化多对算力网络的灵活性、自动化和智能化提出了更高的要求。为应对上述挑战,服务生成算力网络的概念得以提出。服务生成算力网络通过将 AI 技术与算力网络的基础设施、功能流程、服务应用等深度融合,把 AI 的解决目标和承载方式都设在算力网络内部,利用 AI 技术赋予算力网络基础设施智能化、业务流程一体化、服务能力自优化、算网运维自动化等能力,进而为多元应用提供泛在、高效、灵活、安全的服务化算力供给。算力网络服务生成是利用 AI技术使能算网深度融合与智能服务的新范式,也是智能算力网络构建的终极目标。第九届未来网络发展大会白皮书服务生成算力网络白皮书 II 本白皮书详细阐述了服务生成算力网络的发展背景、基本概念、参考架构、关键使能技术,同时介绍了服务生成算力网络的典型应用场景,并探讨了服务生成算力网络的挑战机遇和发展趋势,旨在为服务生成算力网络研究创新、技术发展和应用落地提供参考。然而,服务生成算力网络的实现是个长远目标,相关理念和技术仍在研究发展中,本白皮书还存在需要不断完善的地方,真诚地期盼读者批评指正。第九届未来网络发展大会白皮书服务生成算力网络白皮书 III 目 录 前 言.I 目 录.III 一、服务生成算力网络发展背景.1 1.1 算力网络面临新的机遇及挑战.2 1.2 人工智能开启算网应用新范式.4 1.3 算网服务生成成为应对挑战的必经之路.6 二、服务生成算力网络的愿景、特征与参考架构.8 2.1 服务生成算力网络目标愿景.8 2.2 服务生成算力网络关键特征.8 2.2.1 意图驱动的算网融合.9 2.2.2 算网全流程闭环自治.10 2.2.3 网-算-智协同自适演进.11 2.3 服务生成算力网络参考架构.12 三、服务生成算力网络使能技术.20 3.1 算力网络.20 3.2 自智网络.22 3.3 人工智能.25 3.4 数字孪生.28 四、服务生成算力网络应用案例.32 4.1 算网数据按需生成.32 4.2 网络拓扑智能生成.35 4.3 算网服务智能生成.37 4.4 业务流程自主管控.42 4.5 服务自优化与持续演进.46 五、技术挑战与未来方向.50 5.1 智能训练与部署问题.50 5.2 业务融合方案设计.52 5.3 智能度量与评估.52 第九届未来网络发展大会白皮书服务生成算力网络白皮书 IV 5.4 自演进可控性.53 5.5 应用落地与生态建设.54 六、总结与展望.57 附录 A:术语与缩略语.58 参考文献.59 第九届未来网络发展大会白皮书服务生成算力网络白皮书 1 一、一、服务生成算力服务生成算力网络发展背景网络发展背景 从战略发展角度来说,数字基础设施的发展是推动数字经济发展的关键驱动力。随着全社会数智化转型的升级加速,对于算力的要求也越来越紧迫。算力已成为全球技术创新竞争的焦点领域,我国正在集中力量攻关面向未来产业发展的新一代服务生成算力网络(SG-CNC,Service-Generated Computing and Network Convergence)技术,开展原创性、先导性的基础理论及关键技术研究,旨在形成具有自主知识产权及产业把控力的算力网络应用体系,为我国经济社会的数字化、网络化和智能化发展夯实底座。从行业应用角度来说,随着各种新技术、新应用、新场景和新模式等不断涌现,多元业务的不同服务需求对算力网络的自动化和智能化提出了更迫切的要求。而且算力网络本身也面临着需求碎片化和多样化、日益增加的系统规模和复杂度大大增加运维难度、算网资源协同调度等诸多挑战。通过引入 AI(Artifical Intelligence)技术加快算网智能化已经成为发展趋势和行业共识。新一代智能算力网络正以实现“L5 等级”的自治为目标进行演进发展。服务生成算力网络旨在以网络为基础、算力为载体、智能为核心,通过多要素融合来实现,是利用 AI 技术来使能算网深度融合与智能服务的新范式,也是算力网络智能化演进的终极目标。服务生成算力网络以构建服务生成网络的思想来使能算力网络的功能实现,在当前第九届未来网络发展大会白皮书服务生成算力网络白皮书 2 算力网络的体系框架下,通过将 AI 技术与算力网络的基础设施、功能流程、服务应用等深度融合,把 AI 的解决目标和承载方式都设在算力网络内部,利用 AI 技术来赋予算力网络基础设施智能化、业务流程一体化、服务能力自优化、算网运维自动化等能力,进而为多元应用提供泛在、高效、灵活、安全的服务化算力供给。在此基础上,服务生成算力网络还强调能力自主优化和智能自适演进,面向动态变化的应用场景和服务需求能够通过自学习、自演进来不断提升自身业务服务质量和智能化能力。本白皮书阐述了服务生成算力网络的发展背景、目标愿景、体系架构、使能技术、应用场景和机遇挑战等,旨在为那些有兴趣了解服务生成算力网络概念和技术的研究人员提供介绍和指导,并期望借此引起国内外研究单位的共鸣与思考,进一步推动服务生成算力网络的落地应用和发展创新。1.1 算力网络算力网络面临新的机遇及挑战面临新的机遇及挑战 随着 5G、云计算、大数据、人工智能等新一代信息技术的结合发展,工业互联网、车联网、AR/VR 等新型业务正逐渐落地推广。为了满足复杂多元业务场景中的不同服务质量需求,新一代信息网络基础设施正向着通信、存储、计算等多要素深度融合的一体化服务方向发展。算力网络作为实现算网基础设施化的一个重要载体,旨在将泛在的算力资源依托网络进行打通互联、协同调度,并将不同的应用业务通过最优路径调度到最优的计算节点,在实现用户体验最优的同时,第九届未来网络发展大会白皮书服务生成算力网络白皮书 3 保证网络资源和计算资源利用率最优化。算力网络的核心思想是基于泛在分布的网络实现无处不在的算力资源,通过构建一张计算资源可感知、可分配、可调度的新型网络来实现计算任务的统筹分配和灵活调度,算力资源云边端跨域分布和算网深度融合是其典型特征,为多元用户按需提供优质高效的算力资源服务是其最终目标。目前,算力网络在 VR 互动、新媒体直播、智慧医疗、车联网、跨域算力共享等场景中发挥着重要作用,各行业数智化转型的加速为其带来大量新的机遇。然而,爆炸式的业务需求增长、日益增加的算网复杂度、以及用户体验设计的逐步加强,给算力网络的发展带来了新的挑战。场景需求多样化场景需求多样化:算力网络既要将异构泛在的算力资源进行融合纳管,也要考虑不同行业、不同领域、不同场景、不同企业对算力的差异化需求。为此,算力网络不仅需要加强自身可用性、敏捷性等能力的建设,还需要改变传统的服务范式,按需按量为客户提供计算、应用、调优、运营、运维等一站式服务。规模复杂度增高规模复杂度增高:算力网络规模和复杂度的日益增加,势必会引入大规模系统的规划、管控、调整、运维、优化等问题,当前“人在回路”的解决方式在规模、复杂性、动态性和成本等方面难以为继,亟需自动化、智能化的管控机制实现对算网的规划设计、建设部署、维护运营、优化调整、运维管理等全生命流程管理。以用户体验为主以用户体验为主:算力网络的目标是为用户提供极致的服务体验,而这需要其具备高度的自动化、智能化水平,能够根据用户意图自动第九届未来网络发展大会白皮书服务生成算力网络白皮书 4 化地提供最优资源服务,然而现有算力网络的系统架构、流程机制、使能技术、服务模式等无法支撑上述目标的实现。近年来,以深度学习、知识图谱为代表的 AI 技术得到了飞速发展,并在诸多领域取得了巨大突破。算力网络作为支撑各行业数智化转型的信息基础设施,具有应用 AI 技术的巨大空间和潜力,通过引入 AI 技术使能算网智能化也已经成为发展趋势和行业共识。另外,算力网络能够进一步赋能 AI 产业加速进化,为 AI 计算提供“随处可得”的优质算力服务,支撑大模型训练和高效的模型推理,有效地推动 AI 应用的广泛落地和创新发展。为了使研究人员更直观、更深入地理解服务生成算力网络,并提供面向新一代算力网络建设的参考方案与灵感启发,本白皮书从 AI 技术与算力网络结合的角度入手,从概念、架构、技术、场景、生态、挑战等多个方面对服务生成算力网络进行系统、全面的阐述。1.2 人工智能开启算网应用新范式人工智能开启算网应用新范式 AI 在跨域特征挖掘、深度数据分析、策略动态生成、能力自动学习等方面具备天然的优势,将 AI 与算力网络的设计、建设、维护、运行和优化等功能结合起来,利用其强大的分析、判断、预测、决策、学习等能力,赋能网元、算网和业务系统,助力构建高效灵活、安全智能的信息基础设施。“AI 算网”的融合发展将给算力网络注入新的技术活力,开启前所未有的可能性,如图 1-1 所示。对于算力网络建设者算力网络建设者来说,生成式第九届未来网络发展大会白皮书服务生成算力网络白皮书 5 AI 技术将打造全新的算网设计范式,彻底取代人类专家在算网设计配置的工作,并能够根据场景自动生成最优算网部署方案。算网建设者仅需要将场景需求、指标期望等输入给 AI 专家系统,然后按照生成的方案在现实世界中执行对应的操作。对于算力网络运营者算力网络运营者来说,AI 技术能够对算网全流程赋能,包括用户意图感知、业务智能承载、服务闭环优化、智能运维等,使能算网自动化、自优化、自修复、自学习,实现算网精细化自主运营,算网运营者将更多关注于算力网络的规则制定和流程管理,而不需要在算力网络运行过程中进行干预。对于算力网络使用者算力网络使用者来说,基于 AI 技术构建的智能化算网服务流程,能够快速识别新业务,使用智能的交互方法来全面洞察用户意图,在实现资源高效利用的同时保障极致的客户体验。算网使用者仅需简单的操作,便可获取最优的服务。同时,对于算力网络本身算力网络本身来说,AI 技术将赋予其高度的智能水平与自治能力,能够以高级智能体的身份完成与用户交互、分析决策、在线优化等活动,并通过自主学习实现自身智能与能力的持续升级演进。图 1-1 AI 技术开启算网应用新范式 第九届未来网络发展大会白皮书服务生成算力网络白皮书 6 1.3 算网服务生成成为应对挑战的必经之路算网服务生成成为应对挑战的必经之路 AI 技术的创新突破及迅猛发展,为应对上述挑战并超越传统算力网络设计理念与性能提供了潜在的可能性,并将充分赋能新一代信息基础设施。近年来,国内外各研究机构、公司厂商、标准组织等相继提出随愿网络、智简网络、自治网络等新型网络概念,最终确定了服务生成网络的发展方向,即通过构建网络全生命周期的自动化、智能化运维能力,提供敏捷运营和全场景服务。当前,服务生成网络概念已获行业共识,能力分级标准已基本统一,如图 1-2 所示。图 1-2 服务生成网络智能等级划分 基于上述思想,服务生成算力网络通过算网服务生成,即算网全流程的自动化运行、高效的资源利用率、自适应的优化调整、持续的智能演进、智简的服务体验、全场景的业务承载等,为各行业提供优质的算网资源服务,赋能数字经济。具体来说,服务生成算力网络围绕着算网融合一体化的建设目标,通过在系统全生命周期引入“智能”,第九届未来网络发展大会白皮书服务生成算力网络白皮书 7 利用前沿技术实现自动化的算力感知、算力评估、服务编排和调度、算力路由、算力交易等,让算网“自治”,提升业务服务质量和用户的服务体验。服务生成算力网络的本质是通过数据驱动进行自学习、自演进,对算力网络不同层面进行注智赋能,最大限度地解除算网功能实现对人力的依赖。从理论概念方面来说,服务生成算力网络是算力网络与服务生成网络的深度融合,基于自动化、智能化地实现系统功能的思想,最终实现算网服务生成,即系统全流程的自动化运行、智简的服务体验、多样化的业务承载、高效的资源利用率、自适应的优化调整等。从技术实现方面来说,算力网络中的基础资源感知和建模、资源的编排策略、算网运行的故障处理、算网服务的在线优化等关键动作,都可以通过智能算法实现自动化。从系统功能方面来说,算力网络的感知、分析、决策、调度、运维、安全等功能需要自主实现,而且需要不断提高智能化水平来满足日益复杂的功能需求,并能够进行“网-算-智”的协同迭代,逐渐实现自动化、自治化、服务生成化。从用户体验方面来说,获取极简的使用体验,能够自身需求/意图获得可靠性最优、资源最优、安全最优、体验最优的算力服务,是服务生成算力网络的核心目标。第九届未来网络发展大会白皮书服务生成算力网络白皮书 8 二二、服务生成算力网络的愿景服务生成算力网络的愿景、特征与参考架构特征与参考架构 2.1 服务生成算力网络目标愿景服务生成算力网络目标愿景 服务生成算力网络旨在通过自动化和智能化的手段,实现基础设施智能化、业务流程一体化、服务场景定制化、算网系统自动化等,能够为多元应用提供泛在、高效、实时、灵活、安全的服务化算力供给,并使能网络自身的自治运行与持续演进,最终实现网络无所不在、算力无所不达、智能无所不及。2.2 服务生成算力网络关键特征服务生成算力网络关键特征 服务生成算力网络的主要特征包括:意图驱动的算网融合、算网闭环自治和网-算-智协同自适演进,如图 2-1 所示。图 2-1 AI 技术开启算网应用新范式 第九届未来网络发展大会白皮书服务生成算力网络白皮书 9 2.2.1 意图驱动的算网融合意图驱动的算网融合 算力网络本质上是一种将多级算力资源与网络资源进行一体化融合的新型信息基础设施,能够按需为用户提供算力资源服务是其基本功能。为实现面向多元用户的算网自动化全场景按需服务,基于意图的算力网络需要根据用户的业务需求生成最优的算力服务提供策略,并通过对基础设施进行自动配置来进行功能实现。因此,需要实现意图驱动的算网融合,如图 2-2 所示。图 2-2 意图驱动的算网融合 为实现上述目标,一方面需要基于算力网络现有的研究,包括资源感知、算力节点协同机制、任务调度机制等,实现算网的深度融合。另一方面,结合意图网络相关技术,将用户的意图进行转译成网络可理解、可执行的指令,并根据当前算网状态进行策略验证、执行和结果反馈,确保用户意图正确实现。其中,如何进行用户意图解析是关第九届未来网络发展大会白皮书服务生成算力网络白皮书 10 键难点。目前,通过关键字原句和表达语句来描述用户需求的方法存在缺少语义信息、抽象级别低等问题,无法对复杂的用户需求进行充分表征。而自然语言处理技术能够对用户意图准确地进行识别、解析和预测等,是构建用户和算网之间沟通桥梁的有效手段。此外,如何自动生成满足意图需求的算网融合策略也是实现算网服务生成的关键。传统的策略生成方法依赖大量的人工经验设计,而且无法适应动态变化的用户意图和网络状态。为此,需要构建基于用户意图和算力网络的双向认知的策略生成机制,通过对用户意图和网络状态信息进行特征挖掘和抽象聚类,提炼出满足各类意图共性和规律的算网融合策略,并将两者的匹配策略以知识的形式进行保存复用,从而为策略生成提供先验知识。2.2.2 算网算网全流程全流程闭环自治闭环自治 服务生成算力网络是一个高度智能的自动化网络,能够自动化、智能化地完成算网的规划设计、建设实施、维护优化、优化调整、运营管理等生命周期中各个阶段的任务,实现流程自动化、服务自优化和能力自主化,最终实现闭环自治,如图 2-3 所示。流程自动化是指算网能够在不依赖人工参与的情况下,利用 AI 技术将单个流程的重复性算网操作转换成由系统自动执行,并将多个环节打通串联,使能整个业务工作流的自动化运行。服务自优化是指算网能够对业务资源的历史数据进行智能分析和预测,实现算网资源和参数配置的自优化,并能够根据用户反馈提升服务质量,形成资源、业务、服务的多重闭环优化。能力自主化是指算网具备独立管理和控制算网的能力,基于第九届未来网络发展大会白皮书服务生成算力网络白皮书 11 信息化、自动化和智能化手段,通过深度感知、智能分析、自主决策和自动执行来对算网基础设施、业务流程、运营运维、服务质量等进行全方位自动化管控,保障系统和业务持续稳定的运行。图 2-3 算网全流程闭环自治 2.2.3 网网-算算-智协同自适演进智协同自适演进 网-算-智的协同自适演进是指算网和智能相互融合和协同工作,以实现系统的自适应演进,如图2-4所示。算网通过收集和传输数据,为算法和智能提供了丰富的信息资源;算法通过对网络数据的分析和处理,提供决策和优化的依据;智能则通过学习和推理来优化算法的性能,并实现更高级的功能和服务。然而,算力网络的复杂性以及现有技术的局限性决定了实现完全算网服务生成是无法一蹴而就的,只能是一个长期目标,需要循序渐进、逐步实现。从简单的重复执行替代到复杂的算网融合策略生成、从局部的单域自治到全局的协同服务生成、从部分需要人工辅助到完全智能服务生成。同时,随着系统规模的扩缩,基础设施的添删、用户意图的变化、第九届未来网络发展大会白皮书服务生成算力网络白皮书 12 业务场景的更替等,智能也应该随着算网的动态变化进行自适应调整,形成可演化式智能。例如,随着新的业务需求的出现,智能需要不断更新和升级,以支持新的业务场景和应用。这可能涉及到新的数据处理和分析技术、新的服务模型或新的安全措施等。同时,旧有的业务可能会逐渐过时,智能需要相应地进行调整和优化,以适应变化的业务环境。目前,基于迁移学习、终身学习等的可演进式智能技术正在被广泛研究,具有自适应、自学习、自演进能力的新型网络范式也逐渐成为新的研究热点。图 2-4 网-算-智协同自适演进 2.3 服务生成算力网络参考架构服务生成算力网络参考架构 服务生成算力网络的系统架构设计采用分层策略,根据各层的功能抽象程度和业务逻辑,自下而上包括基础设施层、算网管理层和业务应用层,同时,内生智能模块跨越所有层级,为各个流程环节进行赋能,如图 2-5 所示。第九届未来网络发展大会白皮书服务生成算力网络白皮书 13 图 2-5 服务生成算力网络参考架构 基础设施层基础设施层是服务生成算力网络的基石,由各类硬件设施、软件系统、数据等构成,对全网的算力资源、网络资源、存储资源及数据资源等进行统一感知管理,并能够根据业务需求对各类计算、存储资源进行高质量传递和流动。而作为基础设施层在数字环境中的虚拟化表示,数字孪生通过利用数字技术和模拟方法,在虚拟环境中对现实世界的实体、系统或过程进行建模、仿真和分析的过程,能够提供更好的算网基础设施设计、优化和管理手段。此外,通过内嵌实时智能,基础设施层一方面能够拓展对自身信息的感知深度与维度,包括资源感知、性能感知与故障感知等,为算网管理层进行分析决策提供可靠全面的输入。另一方面,通过在数据源头进行分析决策,能够实现实时不间断的业务响应、设备能耗的智能调节、毫秒级的算网故障感知和故障修复等功能,提升系统自响应、自修复、自优化能力。算网管理层算网管理层是服务生成算力网络的大脑,负责系统功能的具体实第九届未来网络发展大会白皮书服务生成算力网络白皮书 14 现。从功能内容来说,算网管理层通过南北向接口分别对基础设施层状态信息和业务意图进行输入,在此基础上进行分析决策和算网控制,包括状态感知、资源调度、算力管理、服务编排、故障分析与自修复等,从而实现感知、分析、决策、控制的全流程闭环管理。从实现方式来说,算网管理层采用单域自治与跨域协同的分层渐进策略来实现系统服务生成。单域自治强调针对系统子功能模块的自动化、智能化执行,并能够根据资源状态、用户意图等进行自适演进,从而实现针对单一自治域的局部服务生成。在此基础上,跨域协同以各个自治域为基本单位,将各独立的单域拉通互联,通过多域协同的方式解决使用单一模块无法解决的复杂的问题,进而实现功能流程的自动化和业务高层智能化闭环处理。算网管理层将 AI 技术深入嵌入算网的各个层面,通过构建和使用对算网领域具备深入理解和专业知识的大模型,连通业务流程断点和解决更复杂的任务,全方位提升不同功能模块的智能化学习及场景适应能力,支持个性化智能服务能力的持续演进,保证算网对当前业务和未来新业务的服务质量。业务业务应用应用层层用于实现面向用户的服务能力开放,承载着抽象的业务功能。从用户的角度来说,业务运营层支持用户智能交互,并能够根据用户意图自动地将服务应用调度到合适的节点,实现资源利用率最优并保证极致的用户体验。内生智能模块内生智能模块通过构建数据采集、模型训练、智能分发、知识迭代的完整闭环,能够为基础设施层、算网管理层及业务应用层提供全方位的智能服务,进而为多样化业务需求和算网服务生成提供智能化第九届未来网络发展大会白皮书服务生成算力网络白皮书 15 所需的基础能力。作为智能能力管理与知识统一中心,内生智能模块摒弃传统“外挂式”AI 的方式,在算力网络各个层级都实现感知、分析、决策、执行等功能与 AI 的深度融合,将 AI 的设计训练、推理验证、部署应用、迭代优化等全生命周期都设在算网内部,使得 AI 诞生于算网并服务于算网。基于 AI 强大的学习、分析和决策能力,内生智能模块通过对算网运行过程中产生的数据进行深度挖掘,并协同整合不同网络层之间的数据、资源、功能等方面的差异,能够针对各种业务形成有效解决方案,并综合考虑算网的运行效率、自动化水平、服务质量等。同时,内生智能模块还支持 AI 的持续学习,能够随着需求的改变自适应地进行知识演进,并能够进行知识融合与推理从而产生新的知识,这也是内生智能体所需要具备的重要特征之一。基于上述系统架构,服务生成算力网络需要提升自身自动化和智能化水平,主要体现在感知、分析、决策及执行四个方面。1)全维全维感知:感知:用户用户-算网双向认知算网双向认知 服务生成算力网络利用网络手段将计算、存储等基础资源在云边端之间进行连接与协同,从而提升业务服务质量和用户的服务体验。精准地对泛在异构、动态时变的计算资源的部署位置、实时状态、负载信息等进行感知,以及对网络的传输时延、抖动、带宽资源利用率等信息进行实时动态获取,是实现上述目标的前提。同时,业务意图也是算网资源感知的重要部分。服务生成算力网络需要对业务内容和意图进行全面感知,综合考虑当前的网络和计算资源状态,通过匹配算力和服务,将不同的计算任务调度到合适的节第九届未来网络发展大会白皮书服务生成算力网络白皮书 16 点进行处理,实现通信和算力在网络的全局最优。一般来说,业务意图是以抽象的符号、文字、语音等方式存在,服务生成算力网络需要借助自然语言处理技术来将其转换成算网意图表达模型,从而生成满足业务所需要的资源配置策略。同时,服务生成算力网络还可以通过监测用户在平台上的行为,如点击、搜索、浏览历史等,可以获取用户的兴趣爱好、偏好和需求信息。通过对用户行为的感知,可以更加准确地分析用户的需求并提供个性化的推荐和服务。2)智能分析智能分析:算网领域专家系统算网领域专家系统 算网智能分析需要在感知的基础上对用户业务、算网状态、功能流程等多个方面进行深度理解,并在此基础上形成面向算网服务生成的知识空间。服务生成算力网络通过模拟和实现算网领域专家分析和解决问题的能力,基于对大数据的挖掘和分析,发现数据中的模式、规律和趋势,并结合人类专家的经验和算法模型,帮助解决算网流程和应用服务过程中的问题和瓶颈。首先,针对算力网络中泛在化的异构算力资源以及多样化的业务需求,如何有效地对算力进行标识和度量、对任务内容进行分类解析、对用户的满意度进行测评量化,进而实现对业务需求-资源状态-服务质量之间的相关性进行准确评估是算网融合的基础步骤。其次,服务生成算力网络需要对自身的状态进行实时分析,洞悉当前的业务能力、性能水平、安全状态等,并能够进行风险预判和预测性资源配置。同时,服务生成算力网络还需要对不同流程、环节之间的逻辑关系进行解析,从而能够为多元业务构建最优的实现流程。在发生故障时,需第九届未来网络发展大会白皮书服务生成算力网络白皮书 17 要对故障根因进行分析,快速准确地定位出故障节点,并能够提供解决意见或方案。此外,服务生成算力网络还需要对业务承载、系统运行、故障分析等功能背后的机理进行认知,在解决问题的过程中将相关的规律、法则、策略等凝练为可复用的知识,从而支撑算网进行推理分析、闭环决策、自治运行等。3)自主决策自主决策:知识定义的自主决策知识定义的自主决策 在服务生成算力网络中,将复杂多元的计算任务分派并调度到最匹配的计算节点进行高效处理,需要算网具备实时精确、灵活智能的决策能力,能够根据任务需求和算网状态信息实现资源编排、路由选择、任务调度等功能。传统的策略生成通常基于人为设定的规则和经验数据,如基于链路基础度量值的路由选择、基于分时的计算节点选择、基于加权代价函数的任务调度等。然而,随着算网规模和业务类型的飞速扩增,上述的算网策略生成方式成本越来越高,而且无法保证最优的服务质量和用户体验。为此,基于知识定义的算网自主决策通过利用构建的领域知识库对任务需求进行分析,能够使能算网像人类一样智能、自动地做出决策。作为数据的抽象升级,知识能够更好地揭示策略生成的可解释性和逻辑推理,并能够通过挖掘不同知识点之间的深层关系来推理探索新的知识。算网知识的生成依赖不同类型的数据,包括日志、性能指标、运维手册、业务需求、用户服务体验等,以及先验知识,例如拓扑、专家规则、运维经验等。基于自动化或半自动化的知识抽取方法,算网知识可以以结构化数据、知识图谱、AI 模型等方式进行表征,具第九届未来网络发展大会白皮书服务生成算力网络白皮书 18 体内容可归纳为历史记载、客观现状、主观体验和动作反馈等类型。目前,基于 AI 的策略自动生成机制、基于数字孪生的策略验证,以及基于用户反馈的策略自动优化等技术已经成为相关研究的热点。4)自动执行自动执行:基于自主学习的算网自动驾驶基于自主学习的算网自动驾驶 算力网络的基本目标是根据自身资源状态最优地进行用户意图执行和方案部署,而服务生成运行概念的引入又赋予其自动化、智能化的发展目标,其自动执行涵盖动作的自动完成、故障的自动修复、服务的自动优化、能力的自主学习等多个层面,即实现算网“自动驾驶”。考虑传统算力网络缺少系统功能运行层面的思考,通常无法有效应对算网规模动态化调整、意图适应性承载、故障自动化修复、智能自适应演进等需求。为此,首先需要对算网全元素进行多粒度、全维度的精准控制,能够满足复杂多元应用的不同服务需求。其次,需要对算网进行全局协同控制,在对单域内元素进行管控的基础上,在业务运行、系统优化、监控排障等具体场景中通过联合多域构筑端到端的智能化闭环,进一步支撑算网实现自动化运行、故障自修复等。另外,引入智能控制策略,利用机器学习与深度学习等方法对算网数据进行分析和学习,绕过复杂的数据特征提取和网络功能建模,基于生成的普适性、智能化的控制策略完成端到端的控制流程,最终实现算网运行的智能化。此外,高度智能化的算力网络还需要具备自优化和自学习的能力。在业务的承载以及与用户的交互过程中,算网能够根据用户的反馈自第九届未来网络发展大会白皮书服务生成算力网络白皮书 19 动化地对资源配置、业务流程、服务质量等进行改进,从而为用户提供更好的体验。同时,算网还需要利用自主学习能力不断的扩展和改善自身能力水平。在不受外界支配与干扰的情况下,能够自动地完成选择学习目标、制定学习计划、构建学习方法、评价学习结果等,从而获得应对新业务需求的能力。第九届未来网络发展大会白皮书服务生成算力网络白皮书 20 三三、服务生成算力服务生成算力网络网络使能技术使能技术 服务生成算力网络的实现依托算力网络和服务生成网络两个领域研究成果的融合,以及各种新兴技术的结合。一方面,服务生成网络为算力网络提供智能化解决方案。另一方面,算力网络为服务生成网络提供业务场景。在构建服务生成算力网络过程中,需要将算力网络的具体业务功能与服务生成网络的智能化策略进行深度融合,基于智能算法使能流程自动化、智能化,并由单域自治演进到多域协同智能,逐步推动算网自主运行、自适演进,从而最终实现算网服务生成。3.1 算力网络算力网络 算力网络通过将分布的计算节点连接起来,动态实时感知计算资源和网络资源状态,进而统筹分配和调度计算任务,形成一张计算资源可感知、可分配、可调度的网络,满足新业务新应用对算力的要求,是一种云边网深度融合的新范式,也是边缘计算向泛在计算网络融合演进的新阶段。本节将从资源感知、资源编排与任务调度三个关键技术对算力网络进行介绍。算网资源感知是实现算力网络按需调度的基础,其关键技术主要体现在异构泛在资源的实时感知与状态同步机制。计算资源广泛部署于端、边、云,状态随任务执行动态变化;网络资源则需实时感知时延、抖动、带宽等指标,以支持最优路径选择。IETF 架构草案将资源感知能力集成于控制平面,通过扩展 BGP/IGP 协议实现节点间 SID第九届未来网络发展大会白皮书服务生成算力网络白皮书 21 及计算负载信息的动态通告。计算负载基于 CPU、会话数、QPS 等多维度加权计算,采用阈值触发或定时更新机制减少网络波动。入口节点需综合计算负载与网络成本选择出口节点,避免单一负载最低策略导致的拥塞。任播地址机制进一步优化了请求转发路径,提升系统整体性能。资源感知技术为后续资源编排与任务调度提供了实时、准确的数据支撑,是算力网络高效运行的核心保障。在资源感知基础上,算力网络资源编排通过结合用户多样化需求,对算网资源进行一体化调度与组织,以服务化方式实现服务注册、发现与路由,并采用服务网格提供扁平化编排。编排时需综合考虑效费比、平台锁定和服务模式等因素。对于效费比,通常引入无服务器计算(Serverless)作为关键技术,通过事件驱动、函数即服务(FaaS)和按需计费,实现资源动态扩缩容与细粒度调用,屏蔽底层管理,显著降低成本并提升效率。对于平台锁定,通过采用多云多平台容灾备份机制,保障业务连续性与数据安全。在服务模式方面,构建开放共享的算力生态圈,促进多维有序协作。资源编排通过整合Serverless、微服务、容器化等技术,实现算力资源的高效、灵活、安全调度,是算力网络服务化运营的核心支撑。算力网络任务调度技术基于任务的时间特性、SLA 需求和应用场景进行差异化调度,旨在实现资源的高效利用与公平分配。调度策略包括基于队列和用户配额的公平性保障,通过优先级排序确保关键任务优先执行。节点资源排序则依据负载均衡或节能目标选择最优节点,算力亲和调度则根据任务类型匹配异构资源,如 TPU、GPU 等,以最大化资源利用率。此外,资源抢占机制支持高优先级任务紧急回收借用资源,资源预留解决大小任务混部时的资源竞争问题,而资源回填第九届未来网络发展大会白皮书服务生成算力网络白皮书 22 则通过感知任务结束时间,复用预留资源进一步提升集群效率。这些调度策略协同作用,确保算力网络在多样化任务负载下的灵活性与高效性。3.2 自智网络自智网络 基于 AI Network 的融合模式来使能网络智能已经成为构建新一代网络的研究共识。作为网络智能化的终极目标,服务生成网络的建设愿景由 TM Forum 率先提出,旨在通过将 AI 技术深度嵌入网络的硬件、软件、系统、流程等层面,助力网络流程自动化和智能化。随着 ETSI、3GPP、ITU-T、TMF、GSMA 和国内 CCSA 等标准化组织在服务生成网络的愿景目标、参考架构、功能和管理要求、分级测评等工作的展开,目前,服务生成网络在产业愿景、目标架构和分级标准等方面已达成了广泛的产业共识,相关技术已被网络运营商视为实现业务提质、增效、降本,使能业务敏捷创新的重要手段。本节将介绍构建服务生成网络的三项关键技术:单域自治与跨域协同、意图网络和智能运维。3.2.1 单域自治与跨域协同单域自治与跨域协同 随着网络规模日趋增大和应用范式的日益复杂,需要支持的软硬件基础设施、功能架构、业务场景等越来越复杂多样,大规模网络系统的复杂性、分散性等为实现全域网络服务生成带来挑战。为此,基于分而治之的思想,将复杂网络分解为多个自治域,通过单域自治和跨域协同的策略来实现复杂和超大网络的闭环服务生成。具体来说,第九届未来网络发展大会白皮书服务生成算力网络白皮书 23 单域自治是指在单个网络域内实现自主决策和自主学习的能力。该域可以是一个子网或一个较小的网络环境,可以是根据业务特点、网络技术、维护模式等来划分的一组网络基础设施及其管控系统的组合,服务生成网络在这个域内能够独立感知并做出决策,根据网络负载、性能需求等因素优化网络资源分配。在运行过程中,服务生成网络不需要关心各个单域的内部实现细节和差异,仅需要根据其提供的意图化 API 接口进行交互操作。跨域协同是指不同网络单域之间进行合作和协同工作。多个网络单域可以通过相互通信和信息共享来共同解决复杂的网络问题,优化整个网络的性能和效率。跨域协同使得网络能够更好地适应动态变化的环境和需求,提供更强大的网络服务能力。通过自主决策和协同合作,实现网络的智能化和在线闭环优化。作为构建服务生成网络的核心思想,“单域自治、跨域协同”通过分层次构建体系化能力,一方面,通过模块化的极简网络来降低网络操作复杂度,为用户提供极致的服务体验。另一方面,允许面向业务场景、部署方案、运维流程和用户需求等进行灵活定义、全局规划、优化,使能网络更好地适应复杂的网络环境和需求。上述思想也是实现全场景算网自动化和智能化的关键。3.2.2 意图网络意图网络 在构建服务生成网络的实践过程中,意图网络(IBN,Intent-Based Network)被认为是实现网络智能化的关键技术,其概念是由 Gartner提出的一种能够把意图转换为针对基础设施配置的网络技术,主要流程包括:意图表达/解析、转译和验证、自动化部署/实施、网络状态第九届未来网络发展大会白皮书服务生成算力网络白皮书 24 感知、保障和自动调优。意图网络是由人工智能算法驱动的,通常包括自然语言处理、机器学习和深度神经网络等技术,通过分析用户的输入,包括文本、语音或图像等形式,能够准确识别用户的意图,并将其转化为可理解的指令或任务。意图网络的引入为服务生成网络确定了清晰的发展目标,即通过对基础设施进行自动配置来实现网络自规划、自适应、自优化、自管理,最终达成“网随意动”。类似的,服务生成算力网络在面向多元业务的算网自动化全场景按需服务时,也需要构建一种能有效挖掘用户或业务意图并实现算网资源自动化按需分配的方法,将规划设计、自动化配置、仿真验证、监控分析、故障修复和策略优化等进行有效组织,最终实现以意图为中心的全生命周期闭环,如图 3-1 所示。图 3-1 以意图为中心的网络全生命周期闭环示意图 3.2.3 智能运维智能运维 为实现全流程的闭环自治,服务生成网络需要智能运维来实现网络在线优化和闭环管理过程中的各个环节的自动化。在传统运维第九届未来网络发展大会白皮书服务生成算力网络白皮书 25 方式下,数据规模大且离散,数据治理和全面分析能力薄弱且依赖于经验和规则,运维十分被动,解决问题效率非常低下,运维的实用性大打折扣,难以满足主动运营的要求。智能运维(AIOPS,Artificial Intelligence for IT Operations)通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,并作出决策的运维方式。在网络运行过程中,智能运维可以通过实时监控网络设备和链路的状态和性能,并结合故障诊断和问题排查的功能,实现快速反应和自动化修复。当系统发现故障或异常时,可以迅速定位问题、尝试自动修复,并记录和学习相关的知识,以避免类似问题的再次发生。通过不断的学习和改进,闭环管理可以提高网络运维的效率和准确性,并减少对人工干预的需求。3.3 人工智能人工智能 AI 是构建服务生成算力网络的关键技术之一,是使能算力网络模拟人类高级智能进行感知(算网状态感知、用户意图解析等)、决策(资源编排、任务调度等)、思考(逻辑推理、规律总结等)、行动(运营管控、故障修复等)、学习(机器学习、知识表示等)等活动的主要手段。经过 60 多年的发展,AI 在算法、算力和数据等方面取得了重要突破,包括自然语言处理、图像处理、强化学习等,已经从学术研究走向产业实践,正成为推动网络智能化的决定性力量。此外,以生成式人工智能(GAI)、大语言模型(LLM)和智能体(Agent)为代表的新兴技术,正深刻推动算力网络向更高阶智能演进。第九届未来网络发展大会白皮书服务生成算力网络白皮书 26 首先,传统 AI 算法在算力网络智能化中一直扮演着重要角色,通过优化资源调度、提升网络感知能力及增强服务智能化水平,显著提升了算力网络的运行效率与可靠性。例如,自然语言处理技术通过对日志、配置指令及用户需求的语义理解与分析,实现智能化的网络管理与调度,将用户请求自动转化为资源调度指令,减少人工干预,提升响应速度,并优化用户服务体验。图像处理算法则通过高效处理和分析网络中的图像数据,在边缘计算场景中提取关键信息,减少数据传输量,降低网络负载,同时优化图像压缩与增强算法,提升带宽利用率,保障高质量图像传输的实时性与稳定性。此外,强化学习通过奖惩机制训练智能体,在动态环境中自主优化资源调度策略,根据实时负载与任务需求动态调整资源分配,最大化资源利用率并降低能耗,同时应用于网络故障预测与修复,提高网络鲁棒性。总的来说,传统AI 算法的应用为算力网络的高效运行提供了重要技术支撑。近年来,大语言模型(LLM)凭借其卓越的语义理解、逻辑推理与知识表示能力,正成为算力网络智能化升级的核心引擎。在算力网络中,LLM 的应用贯穿服务全生命周期,赋能从用户交互、资源调度到系统运维的全方位智能化。通过自然语言理解用户意图,LLM 能够将复杂需求转化为可执行策略,实现动态资源调度与故障自愈,大幅提升系统的自适应能力与响应效率。在运维领域,LLM 可对海量日志与告警信息进行语义分析,快速定位故障根因并生成修复方案,显著缩短故障恢复时间,保障业务连续性。此外,LLM 还能从多源异构数据中提取知识,构建算力网络知识图谱,支持跨域、跨平台的第九届未来网络发展大会白皮书服务生成算力网络白皮书 27 知识共享与协同决策,打破信息孤岛,提升整体资源利用率与服务一致性。随着 LLM 与智能体技术的深度融合,算力网络将逐步实现从被动响应到主动预测、从规则驱动到数据驱动的智能化转型,为构建自主、高效、韧性的智能算力网络奠定坚实基础。图 3-2 基于 LLM Agent 的算网流程自动化示意图 如图 3-2 所示,Agent 作为具备自主感知、决策与执行能力的智能实体,正在成为算力网络实现分布式智能控制与自主运营的核心技术支撑。通过引入多 Agent 系统,算力网络中的各个节点能够实现自组织、自配置与自优化,从而摆脱传统集中式管理的局限,形成更为灵活、高效的分布式智能架构。每个节点部署的轻量级 Agent 能够实时感知本地资源状态,并通过与其他 Agent 的协作,共同完成全局资源调度与负载均衡,确保系统整体性能的最优。在故障场景下,Agent的自主性尤为突出,它能够迅速执行隔离、切换、修复等操作,有效减少人工干预,显著提升网络的高可用性与韧性。这种自主运营模式不仅增强了系统的鲁棒性,还大幅降低了运维成本,为算力网络在复杂动态环境下的稳定运行提供了坚实保障。随着 Agent 技术的不断演进,算力网络将逐步实现从被动响应到主动管理、从静态配置到动态优化的智能化转型,相关技术或许是构建真正意义上的服务生成算力第九届未来网络发展大会白皮书服务生成算力网络白皮书 28 网络的关键。3.4 数字孪生数字孪生 数字孪生技术可以利用物理实体模型参数、传感数据、运行历史数据等在虚拟空间中完整映射出一个与物理实体一致的孪生体,并在孪生体中精准呈现反映物理实体的全生命周期。在算网场景下,构建算力网络数字孪生体,基于算网孪生体可实现对算网状态的持续分析和预测、算网治理需求和场景自发掘、业务服务到算网资源的灵活映射,为自动化评估、高效评估、敏捷迭代的服务生成算网提供构建基础,实现算力网络的全生命周期自治。通过物理网络和孪生网络实时交互,相互影响,借助算网孪生体助力算力网络实现低成本试错、智能化决策和高效率创新,同时为算网服务生成提供感知与决策验证平台,进一步提升算网服务生成化。具体架构如图 3-3 所示。图 3-3 算网数字孪生架构图 第九届未来网络发展大会白皮书服务生成算力网络白皮书 29 本节将介绍构建数字孪生的三项关键技术:数据采集和传感、仿真建模、实时更新和反馈。3.4.1 数据采集和传感数据采集和传感 数字孪生需要在建模过程中获取与真实系统相对应的数据,以确保模型的准确性和可靠性。数据采集与传感技术涉及到传感器、数据采集设备和通信技术等,用于实时或离线地采集物理系统的各种参数和状态信息。这些数据可以来自于物联网设备、传感器网络、监控系统等,也可以通过人工采集和整理。数据采集与传感技术的发展使得数字孪生能够更加准确地反映真实系统的行为和性能。在一个完备的数字孪生系统中,对运行环境和数字孪生组成部件自身状态数据的获取,是实现物理对象与其数字孪生系统间全要素、全业务、全流程精准映射与实时交互的重要一环。因此,数字孪生体系对感知技术提出更高要求,为了建立全域全时段的物联感知体系,并实现物理对象运行态势的多维度、多层次精准监测,感知技术不但需要更精确可靠的物理测量技术,还需考虑感知数据间的协同交互,明确物体在全域的空间位置及唯一标识,并确保设备可信可控。构建数字全域标识能够为物理对象赋予数字“身份信息”,赋予独一无二的数字化身份编码,从而确保现实世界中的每一个物理实体都能与孪生空间中的数字虚体精准映射、一一对应,物理实体的任何状态变化都能同步反应在数字虚体中,对数字虚体的任何操控都能实时影响到对应的物理实体,也便于物理实体之问跨域、跨系统的互通和共享,支撑孪生映射。在算网场景中,为各类算网资源在信息模型平台中构第九届未来网络发展大会白皮书服务生成算力网络白皮书 30 建算网统一标识,不仅实现对物体快速索引、定位及关联信息感知,支撑孪生体的建模,同时能够支撑算网资源调度与任务编排。3.4.2 仿真建模仿真建模 数字孪生的仿真建模是将物理世界的对象数字化和模型化的过程。通过建模将物理对象表达为计算机和网络所能识别的数字模型,对物理世界或问题的理解进行简化和模型化。数字孪生建模需要完成从多领域多学科角度模型融合以实现物理对象各领域特征的全面刻画,建模后的虚拟对象会表征实体对象的状态、模拟实体对象在现实环境中的行为、分析物理对象的未来发展趋势。建立物理对象的数字化建模技术是实现数字孪生的源头和核心技术,也是“数字化”阶段的核心。而模型实现方法研究主要涉及建模语言和模型开发工具等,关注如何从技术上实现数字挛生模型。在模型实现方法上,相关技术方法和工具呈多元化发展趋势。当前,数字孪生建模语言主要有 Modelica、AutomationML、UML、SysML 及 XML 等。在算网场景中,对算网资源特征抽象,并进一步描述抽象后的信息,实现模型表达,校验、编排后构建模型,可实现算网资源与孪生空间中的数字虚体精准映射,支撑孪生的管理。数字孪生体系中的仿真作为一种在线数字仿真技术,将包含了确定性规律和完整机理的模型转化成软件的方式来模拟物理世界。只要模型正确,并拥有了完整的输入信息和环境数据,就可以基本正确地反映物理世界的特性和参数,验证和确认对物理世界或问题理解的正确性和有效性。从仿真的视角,数字孪生技术中的仿真属于一种在线第九届未来网络发展大会白皮书服务生成算力网络白皮书 31 数字仿真技术,可以将数字孪生理解为:针对物理实体建立相对应的虚拟模型,并模拟物理实体在真实环境下的行为。和传统的仿真技术相比,更强调物理系统和信息系统之间的虚实共融和实时交互,是作贯穿全生命周期的高频次并不断循环迭代的仿真过程。因此仿真技术不再仅仅用于降低测试成本,通过打造数字孪生,仿真技术的应用将扩展到各个运营领域,其至涵盖产品的健康管理、远程诊断、智能维护、共享服务等应用。3.4.3 实时更新和反馈实时更新和反馈 数字孪生需要能够实时地更新模型,并将模型的分析结果与真实系统进行反馈。实时更新与反馈技术涉及到数据传输、通信网络、数据处理和分析等,以保证数字孪生与真实系统的同步性和一致性。通过实时更新与反馈技术,可以将数字孪生应用于对现实系统的监控、优化和决策支持,实现故障诊断、预测性维护、性能优化等目标。针对服务生成算力网络,服务生成算网决策无处不在且策略复杂多样,针对业务运行状态的策略修改将“牵一发而动全身”。利用数字孪生技术,算力网络服务生成策略可以在与物理网络相同的孪生环境中进行初步验证和协同,确保得到最优策略。与此同时,孪生体可基于实时的输入数据对服务生成算力网络配置等参数进行动态调整,提高服务生成算力网络的稳定性和可靠性。第九届未来网络发展大会白皮书服务生成算力网络白皮书 32 四、四、服务生成算力网络应用案例服务生成算力网络应用案例 算力网络以其高效灵活的算力供给和服务应用,为千行百业带来了巨大的赋能。作为当前算力网络的升级迭代,服务生成算力网络将丰富和革新算力的供给、应用和服务模式,能够极大地提升算网系统的智能化水平与服务质量,并通过不断演进和优化来应对新的挑战和需求。本章简述服务生成算力网络在推动数智化过程中对各行业已有场景的升级和未来场景的畅想,包括为用户提供极致的体验、为行业提供高效的管理,为社会提供普惠的智能服务。然而,算力网络业务和应用场景是不断涌现和创新的,在各行业共同挖掘和努力下,服务生成算力网络势必将开启前所未有的可能性。4.1 算网数据按需生成算网数据按需生成 数据作为驱动 AI 发展的核心燃料,然而,现实情境中,获取这些关键数据资源往往伴随着巨大的经济和时间成本。在算网数据按需生成的广阔场景中,网络中的各类数据源,无论是来自传感器、用户交互、业务系统还是计算任务本身,都呈现出高度的异构性。这些数据源具有不同的数据产生机制、更新频率、数据结构和内在逻辑,在不同状态下或针对不同需求,会产生属性各异的复杂数据流。尽管当前存在一些基于传统生成模型(如 RNN、GAN 等)的数据生成方法,它们或许能够模拟特定类型数据源产生的部分数据特征,但往往难以深入捕捉数据流中潜藏的复杂时空相关性、多模态依赖关系以及深层第九届未来网络发展大会白皮书服务生成算力网络白皮书 33 语义关联,导致生成数据的质量和真实感通常不尽如人意,并且难以实现对生成内容细节的精确控制和定制。此外,构建能够处理和理解这种数据多样性的通用数据生成大模型也面临严峻挑战。直接利用大规模、高质量且经过充分标注的跨领域数据集来训练这类模型,在现实中往往是不切实际的,因为这样的训练数据集本身就极度匮乏且获取成本极高。因此,为了在算网环境中实现高效、高质量的按需数据生成,一方面,需要研究具备高度可控性的通用数据生成模型。这类模型应当能够深刻理解并模拟不同数据源的数据产生规律,捕捉数据流中复杂的内在关联和长期依赖,并根据用户提出的具体需求(如数据类型、时间特性、语义特征、分布模式等)智能地生成符合预期、细节丰富且具有高度真实感的数据。传统的生成方法往往局限于特定模式,难以泛化到多样化的数据源,且通常需要对不同来源或类型的数据分别训练专门的模型,缺乏通用性。为此,首要任务是建立对网络中多元数据源的深度认知能力,理解其背后的生成机制、业务逻辑和潜在模式,在此基础上才能实现面向任意需求属性的高质量数据生成。另一方面,必须解决训练数据匮乏这一核心瓶颈。鉴于直接获取大规模、跨领域标注数据的困难,需要探索高效的学习策略。这包括将来自其他领域(如物理定律、业务规则、先验知识图谱等)的知识显式或隐式地融入生成模型的学习过程中,通过知识蒸馏、迁移学习、小样本学习等手段,结合有限的数据驱动训练,来弥补原始训练数据的不足,从而使得通用数据生成大模型能够在数据相对稀缺的情况下依然能第九届未来网络发展大会白皮书服务生成算力网络白皮书 34 够有效学习和泛化。这样,算网数据按需生成才能真正摆脱对海量原始数据的过度依赖,变得更加灵活、经济和实用。图 4-1 高质量算网数据按需生成示意图 针对当前算网数据生成领域普遍存在的生成结果质量不高且难以精确控制、高质量训练数据匮乏、模型通用性差等问题,构建面向算网环境的通用数据生成模型成为一项关键任务。在训练数据有限的情况下,通过跨域多模型协同,将一个领域(如文本、图像、知识图谱等)中已学习到的知识融入到目标数据(如网络流量、用户行为、业务日志等)的生成过程中,以此解决训练数据不足的问题,并提升生成数据的质量和对生成过程的可控性,构成了基于跨域多模型协同进行算网数据按需生成的核心挑战。针对当前大规模标注的算网数据训练集缺失这一普遍困境,摒弃直接训练通用算网数据生成大模型的常规思路,将复杂的算网数据生成问题分解为两个核心子问题:一是对网络中各类数据源及其生成环第九届未来网络发展大会白皮书服务生成算力网络白皮书 35 境的深度认知,二是基于这种认知的数据生成。我们利用现有的通用语言大模型(或其他类型的预训练模型)来处理海量的、未标记的网络相关语料库(如技术文档、系统日志、用户反馈等),通过筛选和提炼,生成特定格式的数据对(例如,描述网络状态的文本与其对应的理想数据特征对)作为训练样本,并迭代地选择高质量样本以持续优化认知模型。在实现对网络数据源特性、生成机制和潜在模式认知的基础上,采用联合先验知识和数据驱动的方式来训练数据生成大模型,有效缓解了算网数据训练集缺失的问题。同时,我们构建了面向不同生成目标(如模拟特定网络负载、生成合成用户行为轨迹等)的专用大模型,并精心设计了这些大模型之间的交互协作机制,将认知模型中蕴含的领域特定知识(如网络协议规则、业务逻辑约束等)融入到数据生成模型中,从而能够根据用户需求生成具备任意指定属性(如时间分布、空间关联、语义内容等)的高质量算网数据。4.2 网络拓扑网络拓扑智能生成智能生成 在生成式 AI 推动下,AI 模型参数呈指数级增长,这催生了对大规模、高密度计算集群的迫切需求,也彻底改变了智能计算中心在处理速度、内存容量/带宽以及网络延迟/带宽方面的要求。如今,部署超过一万 GPU 的集群已成为 AIGC 领域领先玩家的标配。在实际应用中,智能计算中心能力的首要制约因素已从计算能力的不足,转变为网络对计算效能最大化所施加的限制。因此,网络基础设施超越了第九届未来网络发展大会白皮书服务生成算力网络白皮书 36 其传统上仅仅连接设备的功能,成为决定整个智算中心绝对性能上限的关键命脉。同时,考虑到用户需求的多样性,现代智算中心网络拓扑的设计必须优先考虑可扩展性、高性能、稳定可靠、自动化运维以及未来的扩展能力。图 4-2 网络拓扑智能生成示意图 传统网络设计方法难以高效应对超大规模集群的复杂性和个性化需求,而大模型强大的模式识别、知识推理和生成能力提供了新的可能。其核心需求是利用大模型学习海量网络设计案例、性能数据及用户需求,自动生成满足特定性能指标(如低延迟、高带宽、高可靠性)、易于扩展且符合预算约束的定制化网络拓扑方案,从而克服人工设计的瓶颈。基于大模型的网络拓扑生成技术不仅能显著提升智算中心网络设计的效率和质量,确保网络基础设施真正成为支撑 AI 大模型训练和推理的“高速路”,最大限度地释放计算潜能,还能通过自动化设计减少人为错误,增强网络的稳定性和可维护性,最终为智第九届未来网络发展大会白皮书服务生成算力网络白皮书 37 算中心提供更强大的算力保障,推动 AI 技术的进一步发展。尽管 LLMs 在自然语言理解、逻辑分析等方面展现出强大的能力,但直接将其用于网络拓扑设计这类高度结构化、需要精确计算和优化的工程问题,缺乏精确计算和优化能力,难以保证结果的可验证性和可靠性。为此,可以通过一种基于两阶段的网络拓扑设计方法,该方法包含一个迭代模块级联,包括全局架构设计(Global Architecture Design,GAD)和局部连接搜索(Local Connectivity Search,LCS)。如图 4-2 所示,该框架采用交替优化的方式运行:GAD 负责生成高层特征,如拓扑模式和连接类型;而 LCS 则专注于细化更精细的特征,如组间连接和组内连接。具体来说,针对给定的任务需求,GAD首先利用 LLM 的知识库,根据预设提示确定所需的网络拓扑类型和连接要求。基于 GAD 的输出,LCS 随后采用搜索算法来探索最优的拓扑细节,从而优化最终的拓扑结构。在拓扑生成过程中,前一次迭代的结果会被反馈并作为当前迭代的参考。这使得 GAD 和 LCS 都能在已有进展的基础上进行改进,实现设计的迭代优化。例如,GAD 可以根据 LCS 在前一步找到的详细连接来调整其高层决策,而 LCS 则能根据 GAD 提供的高层结构优化其搜索焦点。这种迭代确保了宏观结构和微观连接都能精细调整,以满足当前任务的具体需求。4.3 算网服务智能生成算网服务智能生成 服务智能生成是服务生成算力网络所具备的典型能力之一。针对多元用户的自动化按需服务需求,服务生成算力网络能够准确挖掘用第九届未来网络发展大会白皮书服务生成算力网络白皮书 38 户意图并自动将其转化为策略对算网资源进行管理。具体来说,服务生成算力网络能够根据用户意图,整合各级资源的特点和需求,为各类用户都提供一套定制化、自动化的资源分配解决方案。同时,在资源紧缺或资源调度低效等情况下,能够进行敏捷有效地资源分配,满足不同计算场景对带宽、延迟、算力等的需求,为客户提供随需可调、场景多样、质量感知的一体化算力服务。为此,服务生成算力网络不仅需要对用户意图进行解析,还需要据此生成算网资源服务策略,从而端到端地将用户意图转译成为具体的算网服务策略。这需要服务生成算力网络对自身的实时状态、运行流程、服务机制等进行深入理解,并能够在当前算力网络服务框架中基于现有的功能模型实现算网资源按需服务。下面以ChatGPT为例来阐述服务生成算力网络融合当前通用大模型进行服务智能生成的过程。服务生成算力网络通过将 ChatGPT(Chat Generative Pre-trained Transformer)作为逻辑处理中心来接入用户意图和对算网进行管理,利用 ChatGPT 强大的语言理解和决策学习能力,能够对用户意图进行准确解析并将其转化为算网配置策略,使能算网资源自动化按需分配。利用指令微调技术(Prompt Engineering)来使能 ChatGPT 具备解决算力网络应用场景中特定问题的能力,包括提供智能聊天交互功能,通过多轮问答的方式来准确全面了解用户意图需求;提供算网策略自动生成功能,在当前算力网络架构下自动选择匹配的功能组件,通过生成算网资源配置策略来对算网资源进行配置管理,并从负载、第九届未来网络发展大会白皮书服务生成算力网络白皮书 39 延时、成本、服务质量、安全等维度向用户展示预期效果;提供基于用户反馈的优化功能,能够根据用户反馈对整体流程、特定模块、服务质量等进行优化。如图 4-3 所示,上述流程主要包括以下四个关键阶段:图 4-3 服务生成算力网络服务智能生成示意图(1)意图解析意图解析:用户将对算网服务的期望通过自然语言输入到服务生成算力网络,服务生成算力网络利用 ChatGPT 以准确挖掘用户意图并满足下一阶段策略生成的输入条件为目标,在多轮对话交互过程中,根据用户意图输入、算网状态、以及交互历史,智能生成相关的交互问题来对用户进行问询。如图 4-3 所示,用户输入“需要对 12 路 1080p 视频使用 yolov5 进行物体识别,处理延时不超过 500ms”,ChatGPT 能够轻松理解任务内容和用户对时延的要第九届未来网络发展大会白皮书服务生成算力网络白皮书 40 求,但由于用户输出缺少在负载、功耗、成本等方面的描述,无法得知相关方面的需求。因此,ChatGPT 需要生成“您能否告诉我您在寻找服务或产品时所考虑的价格范围?”、“您是否需要在运行过程中动态增加或减少计算资源,以适应业务快速变化和需求变更?”等问题来询问,从而对用户意图进行全面理解。通过多次的交互,最终完全理解用户意图并为下一阶段的策略生成提供输入。(2)策略生成策略生成:服务生成算力网络通过将算网服务策略生成问题转化为用户意图-功能组件匹配问题,在现有的算力网络服务框架下,从算力网络系统的功能组件中选择合适的模块来满足用户意图。首先,对算力网络中各功能组件进行描述,包括功能作用、输入输出、调用方法、版本信息等,例如调度模块的描述如下“功能:解决任务调度问题,支持负载、成本、服务质量、能效等优化目标;输入输出:输入包括任务对算力资源、网络资源、存储资源等需求,以及用户在负载、成本、服务质量、能效等方面的期望。输出包括算力节点的选择、部署方式、参数设置等;版本信息:V1-1;.”。ChatGPT 基于各个功能模块的描述信息,结合用户意图解析结果,自动匹配合适的功能模块来生成满足用户意图的算网服务策略。在策略生成后,ChatGPT 会从分析负载、成本、能耗、安全等维度对其进行分析估计,并将结果展示给用户。若在某些方面未达到用户需求,ChatGPT 根据用户意见从算网系统中选择合适的组件进行策略优化调整,直到完全符合用户期望。例如,用户觉得当前策略的成本超出预期,ChatGPT 重新选择配置较低的硬件设施来提第九届未来网络发展大会白皮书服务生成算力网络白皮书 41 供服务。(3)策略执行策略执行:将生成的算网服务策略下发到算网系统中,根据算网服务流程和逻辑规则,自动执行相关步骤。ChatGPT 可以对执行流程进行监控,并在发生故障情况下给出解决建议。图 4-4 服务生成算力网络服务策略生成流程(4)反馈优化反馈优化:对于一个完整的算网服务流程,服务生成算力网络对各个环节进行记录总结,包括用户意图输入、交互过程、解析结果、策略生成过程与结果、服务质量、用户反馈等。通过对历史案例总结进行分析学习,并根据用户反馈对算网服务流程提出优化建议。具体来说,历史案例能够作为示例样本来供 ChatGPT 学习,从而提高其解决意图解析、策略生成等任务的能力。同时,ChatGPT 还能够根据用户反馈对算网服务流程各环节进行优化,例如优化意图解析过程中生成的问题、为调度模块的算法提供优化建议、根据实际运行结果丰富和优化各模块组件的描述等。通过上述方式,通过不断的学习优化来提高算网服务质量,提升用户服务体验。作为一种意图驱动的算力服务,服务生成算力网络具备强大的计第九届未来网络发展大会白皮书服务生成算力网络白皮书 42 算能力、灵活的使用方式、可扩展性和弹性伸缩能力,而服务智能生成能力能够进一步帮助用户高效、便捷地使用服务生成算力网络进行任务处理,并获得满意的服务体验。在使用过程中,用户只需明确自己的需求并提出要求,无需关心底层的计算环境和复杂的技术细节,服务生成算力网络可以通过自动感知用户的需求和偏好,提供定制化、智能化、场景化的服务。4.4 业务流程自主管控业务流程自主管控 服务生成算力网络本身是一个高度智能化的信息基础设施,在对外提供服务时能够助力业务流程高度自动化。尽管当前众多业务都使用 AI 来提升自身智能化水平,但大多都存在单点智能水平有限、业务流程断点等问题,服务生成算力网络可以使能垂直领域大模型,通过与业务流程中已有的智能组件相结合,基于联合数据驱动与知识引导的方式来调用各单点能力,打通长流程断点和技术难点,实现流程自动化和业务闭环处理。例如,在智能制造场景中,服务生成算力网络可以通过自动化任务和工作流的功能,将数据处理和分析、决策支持、流程控制、智能机器人和自动化设备以及自动化交互等环节进行自动化和流程化管理,根据预设的规则和条件,在不同的环节之间自动触发和传递任务,实现业务流程的顺畅执行。这样可以减少人工干预和错误,并提升业务流程的效率。下将从智能规建、智能运维、智能营销、智能计费、智能客服、智能客户关系管理、商业智能等方面,如何赋能算力网络应用进行分第九届未来网络发展大会白皮书服务生成算力网络白皮书 43 析。图 4-5 服务生成算力网络全流程自主管控 智能规建智能规建:服务生成算力网络能够助力智能构建的关键在于其强大的生成能力和适应性。它可以解决各种自然语言处理任务,代码自动生成,文档生成和摘要,以及数据增强等应用场景,对研发生命周期的需求、设计、开发、集成、测试、发布等关键阶段进行赋能,从而加快需求理解和沟通、简化设计过程、提高开发效率、辅助测试执行等。在需求分析阶段,服务生成算力网络可以使能高效的需求沟通和理解,辅助开发团队、业务人员以及用户之间的交流,根据需求描述和问题陈述,生成相关领域的文档、提出潜在问题和建议,帮助确保需求的准确性和完整性。在原型设计阶段,服务生成算力网络可以辅助或自主构建原型和模型,例如,它可以根据输入的需求,利用现有的设计原型工具,快速生成交互原型,完成原型可视化和快速验证。同时,服务生成算力网络可以根据给定的上下文和提示,实现自动化的代码片段生成、函数定义和注释、代码审查和优化等任务,提高智能开发者的开发效率。在测试执行第九届未来网络发展大会白皮书服务生成算力网络白皮书 44 阶段,服务生成算力网络可以基于领域知识和历史测试数据,辅助或自主制定精准的测试计划,包括测试范围、测试用例设计、测试覆盖率等方面,保证测试的效率和覆盖度,减少漏测和误测的情况。在此技术上,使用自动化测试工具进行自动化测试,包括单元测试、集成测试、功能测试、性能测试等。图 4-6 基于 LLM Agent 的流程自动执行机制 智能运维智能运维:AIOps(Artificial Intelligence for IT Operations)旨在通过整合人工智能技术和 IT 运维过程,实现自动化的运维管理,包括运行数据(包括日志、指标、事件)进行分析和处理,自动识别和分析故障,快速定位问题等。服务生成算力网络能够构建完整的故障快速识别、故障处理策略生成以及故障自愈流程,从而进一步提升AIOps 的自动化和智能化水平。基于当前已有的系统指标检测、日志分析等运维组件,服务生成算力网络能够作为运维专家经验和知识库与上述组件中智能算法检测的结果进行融合,以数、知双驱动能力提升运维效率。运维专家的经验通常包含了最佳实践、故障处理流程和第九届未来网络发展大会白皮书服务生成算力网络白皮书 45 解决方案等,将这些知识融入到智能运维系统中,可以使系统具备更准确和高效地诊断和解决问题的能力。此外,服务生成算力网络可以自动生成脚本以及 自动化运维工具需要的程序代码,实现故障自愈。图 4-7 基于自演技 LLM Agent 的智能运维 智能客户管理智能客户管理:智能客户管理通过有效地整合、分析和利用客户相关的信息,帮助企业建立和维护与客户之间的良好关系,并提供个性化的客户服务。服务生成算力网络能够提供更加人性化的智能交互方式,例如在进行调查问卷过程中,采用更为人性化的提问方式进行问卷调查,根据客户的给出的答案,更为智能地选择向客户询问的问题,若发现客户出现不满情绪,能及时进行安抚。在进行服务方案推荐时,以具体用户需求为意图基础,同时整合各类资源、各类服务能力的信息,利用思维链进行多步推理,给出符合客户场景意图的最佳建议方案。在进行客服时,除了准确理解用户的问题和需求,生成准确、个性化和自然的回答和解决方案,还能够识别用户的情感和语气状态,进而提供更加细致的服务。第九届未来网络发展大会白皮书服务生成算力网络白皮书 46 总的来说,服务生成算力网络通过融合 AI、物联网、5G、边缘计算、数字孪生等技术要素,能够为制造业、金融服务、医疗健康、教育培训和城市管理等千行百业带来赋能,并推动各个行业的智能化发展和提升。在赋能各行业的过程中,服务生成算力网络也逐渐改变着各个行业中人类的功能期望与参与方式。首先,服务生成算力网络可以提供泛在的 AI 能力,能够接管那些重复性、繁琐或机械化的任务,使人类能够将时间和精力集中在更高级别、更有创造性的工作上。这样可以提高工作效率,减少错误,并释放出更多的时间供人工从事战略规划、创新和解决复杂问题等任务。同时,服务生成算力网络可以支撑 AI 来作为辅助工具,生成各种创意和设计,为人类提供灵感和参考,帮助人类进行创新、拓宽思维和解决问题的视野。在不久的将来,人类与 AI 副手协同工作将成为常态,从内容创作、办公、搜索和人机交互,都将被深深变革,在智能客服、营销、投研、推荐等各个方面降本增效。4.5 服务自优化与持续演进服务自优化与持续演进 服务生成算力网络具备自主学习、智能决策、自适应优化、自修复和持续演进等典型特征。这些特征使得服务生成算力网络能够根据环境和需求的变化,在无需人工参与的情况下主动调整和优化自身,提供更智能、高效和可靠的服务和体验。第九届未来网络发展大会白皮书服务生成算力网络白皮书 47 图 4-8 服务生成算力网络能力自优化与持续演进 个性化服务个性化服务:服务生成算力网络具有智能交互和个性化服务的优点,能够理解用户需求,并根据用户的个性化偏好提供相应的回答和服务。这使得用户能够享受到更加智能化和个性化的体验,更高效地获取所需信息和解决方案。一方面,服务生成算力网络本身具备灵活多样的节点选择、弹性扩展能力、定制化的 SLA、数据安全与隐私保护、费用灵活计费等特点,支持用户能够根据自身需求和偏好,获得定制化的算力资源和计算服务。另一方面,通过先进的人工智能技术,服务生成算力网络能够理解用户输入的自然语言,并根据用户的需求提供智能化的回答和建议。用户可以通过对话、问题输入等方式与服务生成算力网络进行交互,就像与一个人类进行对话一样。同时,服务生成算力网络可以根据用户的历史数据和行为习惯,提供个性化的服务和建议。通过分析用户的历史查询记录、喜好偏好等信息,能够更好地理解用户需求,从而提供更加符合用户偏好的回答和解决方案。能力自主优化能力自主优化:服务生成算力网络能够根据自身的学习和经验积第九届未来网络发展大会白皮书服务生成算力网络白皮书 48 累不断进行自我改进和优化的能力。通过分析和评估当前的性能和效果,系统可以主动识别问题并提出解决方案,进一步提高系统的性能和效率。首先,服务生成算力网络需要对当前的能力状况进行评估和反馈。系统或个体可以通过监测和分析自身的表现和结果,了解到存在的问题和改进的空间。在此基础上,通过主动获取新知识、技巧和经验,通过学习和积累来丰富自身的能力和知识库,能够对问题制定相应的改进计划。其次,服务生成算力网络还需要具备自我调节和自我控制的能力。系统或个体可以通过自主设定目标、制定计划,并自我约束和监督实施,从而达到预期的改进效果。此外,服务生成算力网络可以与用户互动和交流,接受来自外界的建议和指导,通过协作和合作促进能力的优化和提高。这些特点使得服务生成算力网络能够主动地改进和提高自身的能力水平,提高适应性、灵活性和服务质量。智能自适演进智能自适演进:服务生成算力网络能够通过学习、适应和自我调整,不断改进和提升其智能水平和能力,并在不同环境和任务中展示出更好的表现。基于自主学习和迭代优化的机制,服务生成算力网络通过不断地与用户互动和获取新的数据,从中学习新知识和经验,不断提升自身的智能水平和服务能力。这使得服务生成算力网络能够跟上技术和用户需求的发展,在无需人工操作的情况下,持续提供优质、全面和个性化的服务。为此,服务生成算力网络可以基于不同单域感知的差异性、计算资源的互补性、数据的共享性、域间的交互性,通过跨域协同来赋予算网解决更复杂任务和自适应场景适配的能力。例如,在联邦学习的框架下利用知识蒸馏来实现多节点知识的迁移复用,第九届未来网络发展大会白皮书服务生成算力网络白皮书 49 基于终身学习来实现智能的可持续演进等。第九届未来网络发展大会白皮书服务生成算力网络白皮书 50 五五、技术挑战与未来方向技术挑战与未来方向 服务生成算力网络具有潜在的发展前景,但为实现其落地应用仍有一些挑战和技术难点需要解决,包括智能训练与部署、功能方案设计、智能度量与评估、自演进可控、应用落地与生态建设等。本章节总结分析了这些研究挑战和待解决问题,以供在未来充分发掘服务生成算力网络的潜力和效益。5.1 智能训练与部署问题智能训练与部署问题 服务生成算力网络的智能化建设缺乏基础设施支撑,一方面,核心算法的攻关面临数据、知识、环境等原料匮乏的问题。尽管算力网络中存在海量数据,但异构数据缺乏标准化描述,数据的类型、格式、来源等都差异巨大,而且缺少标注信息,尚无法为算网智能化提供统一的数据支撑能力。而当前存在于文档、书本、标准等中的算力网络专家知识缺少体系化的表达,亟需利用数字化技术将相关知识、经验与 AI 等技术融合,形成具备行业共识的标准化表达。同时,算力网络领域缺少能够提供完善的、有及时闭环反馈的、接近真实算网的实验环境或仿真系统,因此无法有效支撑相关算法的验证和创新。另一方面,当前 AI 技术仍然面临着能力效率、可解释性、安全和隐私等方面的挑战。例如,生成式 AI 是实现算网服务生成的关键手段,发展前景也无限可期,但生成式 AI 仍面临着技术创新、安全规范、应用融合等挑战。从技术演进的角度来说,当前生成式 AI 在生成内容第九届未来网络发展大会白皮书服务生成算力网络白皮书 51 的细节质量、真实度等方面发展迅速,但仍然无法解决数据依赖性高、可控性不好、缺乏可解释性、资源消耗大等问题。此外,当前生成式AI 仅能根据已有的数据库生成相关领域内的内容,生成结果的泛化能力和多样性尚有不足。随着关键技术和基础理论的不断突破,最终能否超越人类的创造性和智慧也尚未可知。服务生成算力网络的智能化建设还面临着智能部署的挑战。首先,AI 模型,尤其是 AI 大模型,通常需要大量的计算资源来进行推断和处理,这可能导致在部署阶段面临硬件性能、存储容量和计算效率等方面的挑战。为此,在智能部署阶段可以通过分布式推理、批量推理、算子融合、硬件加速等提高推理效率,同时,还可以使用模型剪枝、蒸馏、量化压缩等来减少大模型的参数冗余。同时,在将 AI 模型部署到真实环境中时,需要确保智能模型能够适应各种硬件设备、操作系统和网络条件。不同的部署环境可能需要进行适配和优化,以确保良好的性能和稳定性。其次,AI 模型的更新和迭代管理也是一个挑战。当模型需要改进或修复时,如何进行无缝的更新和部署,而不会中断现有系统的正常运行,是一个需要考虑的问题。此外,还需要处理隐私和安全的问题。AI 模型可能包含敏感信息,需要采取措施确保智能模型和数据的安全,并防止未经授权的访问和滥用。针对上述挑战,研究人员正在积极探索改善大模型的部署方法和技术,以提高其效率、可靠性和安全性,以适应各种实际应用场景。第九届未来网络发展大会白皮书服务生成算力网络白皮书 52 5.2 业务融合方案设计业务融合方案设计 算网服务生成在赋予算力网络多维建设愿景的同时,包括高效的资源利用率、极致的用户体验、使能算网自动、自愈、自优、自治等,也对其体系架构提出了更多的要求。首先,服务生成算力网络的架构应该支持统一纳管计算资源、存储资源、网络资源的能力,并能够将基础设施资源以统一的标准进行度量,抽象为信息要素加载在网络报文中,通过网络进行共享。同时,为敏捷实现多元业务并提供极致的用户体验,服务生成算网的体系架构需要是极简的,支持模块化的功能组件、标准化的协议接口、扁平化的管理机制、可解耦的服务策略等功能。在此基础上,服务生成算网的架构还应该遵循分层跨域的设计思想,基于单域自治与跨域协同的建设思想,进而实现全域服务生成。例如,开放可编程的算网自治域、高度自动化的服务流程、以用户体验为中心的闭环运维等。总的来说,在设计服务生成算网体系架构时,应该综合考虑算网业务功能实现、功能服务优化、系统全域服务生成等方面的诉求。然而,如何通过建立统一的体系架构来满足各方面的功能需求,最终的形态还需要在未来进一步探索。5.3 智能度量与评估智能度量与评估 智能度量与评估是对智能系统的性能和智能能力进行量化和评价的过程,其目的是提供一个客观、可靠的方式来衡量和比较智能系统的表现,并为改进优化和进一步发展智能系统提供指导。目前,服务第九届未来网络发展大会白皮书服务生成算力网络白皮书 53 生成网络领域效仿自动驾驶能力的分级策略,将网络智能能力分级为0(完全依赖人工操作)到 5(高度自治、操作无人化)的六个等级。上述分级框架亦可用于服务生成算网领域。然而,服务生成算网的建设之路是个长期的过程,目前可能在很多单点上形成了突破和高度智能,但尚无法形成具有颠覆意义的完全智能化解决方案。在进行智能度量与评估的过程中,对算网整体智能水平的评估通常目标统一、方式直接,可以采用一系列定量和定性的评估方法,例如使用标准数据集进行测试、设计特定的验证任务、进行人工评估或开展实际应用场景的验证等。但对单点的评估不仅需要根据特定任务或领域上的目标设计定制化的测试方案,考虑到智能能力的提升应该来自于系自身的内部发展和学习,而非受到关联节点的影响所致,还需要对各单点的边界定义、因果关联、局部与整体的关系等具有清晰的认识。而这需要在服务生成算网架构设计之初就对相关内容进行明确定义和准则制定。在构建服务生成算网过程中,需要同时考虑单点智能和全域智能的培养和提升,以实现更全面、更广泛的智能表现。5.4 自演进可控性自演进可控性 自演进学习不仅是服务生成算力网络应对环境动态变化的技术需求,也是其具备高阶智能的重要体现之一。在自然界中,智能生物能够根据环境、条件、目标,自适应地调整自身或调度各种资源尽可能地实现预定目标,并在长期累月的进化中实现智能从简单到复杂,从低级到高级的演化。类比而言,服务生成算力网络作为一第九届未来网络发展大会白皮书服务生成算力网络白皮书 54 个高级智能体,自身智能也需要随着时间迁移、系统迭代、场景迁移、需求变更等成长并演化,即通过自学习、自适应、自协同、自组织,实现体系架构动态演进、业务功能逐步拓展、服务能力持续增强等。为实现上述目标,持续学习(CL,Continual Learning)通过从不断变化的数据中进行学习,旨在使能 AI 自动地积累知识和技能,并将其用于未来的学习中。结合不同的学习过程,CL 可以归类为:类增量型持续学习、任务增量型持续学习、域增量型持续学习、任务不可知型增量学习。在算力网络自演进学习过程中,可以根据自身系统状态的参数变化、与用户的交互信息、外部专家的先验知识等通过 CL 来不断提高服务能力和智能水平。然而,CL 目前处于初期研究阶段,尚不具备完备的自演进学习理论模型和体系方法,相关算法仍无法有效解决学习效率低、灾难性遗忘(Catastrohic Forgetting)等问题。5.5 应用落地与生态建设应用落地与生态建设 尽管服务生成算力网络技术存在诸多优势,但在整个社会行业中全面推广并非易事,尤其是当其有可能彻底改变现有的工作方式,重塑商业模式、引导用户习惯时,会遇到各种挑战和阻力。首先,服务生成算网力网络在面向行业的具体应用时,需要把技术、业务、场景和商业打通,这是超越简单技术维度的更富挑战的问题,而且从技术创新到落地应用仍需要时间和进一步的发展,技术的不成熟可能限制了其应用范围和可靠性。此外,服务生成算力网络的应用大量的数据第九届未来网络发展大会白皮书服务生成算力网络白皮书 55 传输和处理,对于个人隐私、社会伦理、和国家安全的担忧是推广面临的另一个重要挑战。另一方面,服务生成算力网络技术的推广会对某些行业和就业形态产生影响,会革新或取代特定工作岗位,因此存在抵制和反对的可能。而对于算网使用者来说,服务生成算力网络技术的使用需要面对人们对于新技术和新方式的接受程度和适应能力,而习惯和文化的改变需要时间和适应过程。为切实促进服务生成算力网络的创新与应,需要构建一个以服务生成算力网络为核心的、具有良好发展与合作机制的生态系统,包括但不限于以下几个方面:建立数据共享机制,通过合理授权和隐私保护,鼓励数据持有方共享数据资源。这样可以提供更多的训练数据,促进模型的发展和优化;建立跨界、跨领域的合作与联合研究机制,促进学术界、产业界、政府和社会各方之间的合作。通过资源共享、技术交流和合作创新,加速服务生成算力网络技术的发展和应用;建立服务生成算力网络伦理道德准则和规范,确保服务生成算力网络技术的研发和使用符合道德和法律要求。保障用户隐私,防止滥用和歧视,同时注重公平、透明和可解释性;提供资金支持和政策引导,鼓励企业投入服务生成算力网络研发和创新应用。制定相关政策和规划,为服务生成算力网络产业的发展提供良好的环境和支持。加强服务生成算力网络领域的人才培养和引进工作,培养专业人才和跨学科人才。推动服务生成算力网络技术的普及和应用,提高整个社会对服务生成算力网络的认知和理解;建立创新孵化器和科技园区,提供创业支持和资源共享平台,激励创新创业者在服务生成算力网络领域开展实践第九届未来网络发展大会白皮书服务生成算力网络白皮书 56 和创新,推动创新成果转化为商业价值。总的来说,服务生成算力网络生态建设需要各方的积极参与和共同努力,包括政府、企业、社会组织等。通过构建健全的生态系统,可以推动服务生成算力网络技术的健康发展,实现技术的共享与合作,促进社会的可持续发展。第九届未来网络发展大会白皮书服务生成算力网络白皮书 57 六六、总结与展望、总结与展望 随着云计算、大数据、物联网、边缘计算等技术的兴起,以及各行各业在数字化转型过程对算力网络的自动化和智能化提出了更迫切的要求,服务生成算力网络的提出,为进一步提升算力网络的资源利用率、提高算网自动化和智能化水平、使能极致的用户体验提供了一个新思路,是算力网络智能化演进的终究目标。同时,我们还必须清楚地认识到服务生成算力网络还处于研究阶段,还存在许多问题和挑战亟待解决,例如功能架构设计、智能度量与评估、生成式 AI 融合、自演进可控、应用落地与推广等。本白皮书通过介绍服务生成算力网络的发展背景、功能愿景、参考架构、使能技术、应用场景和趋势挑战,试图为大家详细地描述服务生成算力网络在未来发展中的潜在价值和美好愿景。期待在不久的将来,服务生成算力网络能够进一步赋能各行各业,推动人类向智能化社会迈进。第九届未来网络发展大会白皮书 服务生成算力网络白皮书 58 附录 A:术语与缩略语 英文缩写英文缩写 英文全拼英文全拼 中文释义中文释义 AI Artificial Intelligence 人工智能 CNC Computing and Network Convergence 算力网络 DT Digital Twin 数字孪生 CCSA China Communications Standards Association 中国通信标准化协会 ETSI European Telecommunications Sdandards Institute 欧洲电信标准化协会 IoT The Internet of Things 物联网 IoV Internet of Vehicles 车联网 SID Service ID 服务标识符 SDN Software Defined Network 软件定义网络 FaaS Function-as-a-Service 函数即服务 TSN Time-Sensitive Networking 时间敏感网络 VR Virtual Reality 虚拟现实 TL Transfer Learning 迁移学习 CL Continual Learning 持续学习 AIopS Artificial Intelligence for IT Operations 智能运维 IBN Intent-Based Network 意图网络 LLM Large Language Model 大型语言模型 DRL Deep Reinforcement Learning 深度强化学习 NLP Natural Language Processing 自然语言处理 GAI Generative Artificial Intelligence 生成式人工智能 GAD Global Architecture Design 全局架构设计 LCS Local Connectivity Search 局部连接搜索 第九届未来网络发展大会白皮书服务生成算力网络白皮书 59 参考文献 1 ETSI GS MEC 003-2020,Multi-access Edge Computing(MEC);Framework and Reference Architecture Disclaimer(V2.2.1)S.2 贾庆民,胡玉姣,谢人超等,确定性算力网络研究J.通信学报,2022.3 中国联通研究院,算力网络架构与技术体系白皮书,2020.10.4 中兴通讯,服务生成网络白皮书,2022.12.5 周晓茂,贾庆民,胡玉姣,郭凯,马千飘,刘辉,谢人超.自智算力网络:架构、技术与展望J.物联网学报,2023.6 Zhou,X.,Hu,Y.,Jia,Q.and Xie,R.LLM-Enabled Multi-Modal Data Synthesis via Cross-Domain CollaborationJ.IEEE Communications Magazine,2025.

    发布时间2025-08-22 66页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025东数西算算网协同调度业务场景白皮书(118页).pdf

    未来网络技术发展系列白皮书(2025)东数西算算网协同调度业务场景白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明I主要编写单位:主要编写单位:紫金山实验室、江苏未来网络集团有限公司、江苏省未来网络创新研究院国家信息中心大数据发展部参与编写单位(拼音序):参与编写单位(拼音序):安徽提尔液冷科技有限公司、北京北方算力智联科技有限责任公司、北京积算科技有限公司、北京趋动智能科技有限公司、成都交投信息科技有限公司、赣州市数字产业集团有限公司、广东华韶数智科技有限公司、贵州南智云谷数字产业发展有限公司、贵州省算力科技有限责任公司、贵州师范大学(未来网络贵州省院士创新团队工作站)、贵州算家计算服务有限公司、合肥城市云数据中心股份有限公司、湖南城市云智数科技有限公司、昆仑芯(北京)科技有限公司、南京中科逆熵科技有限公司、宁夏西云算力科技有限公司、宁夏中卫市新型互联网交换中心有限责任公司、派欧云计算(上海)有限公司、庆阳云创智慧大数据有限公司、四川省算云科技有限责任公司、苏州国科综合数据中心有限公司、算力互联(北京)科技有限公司、曙光信息产业股份有限公司、天津大学、武汉优普拉斯通信有限公司、西安特发千喜网络信息产业发展有限公司、银川中创普惠互联网科技有限公司、鹰硕(韶关)信息产业集团有限公司、宇耀未来(南京)科技有限公司、中航信云数据有限公司II主要编写人员:主要编写人员:罗曙晖、张晨、孙婵娟、张玉军、潘凤薇、周俊、芮美芳、陆明明、高新平、李屹、陈晓波、赵芷晴、梁木III前言前言2023年底关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见(简称意见)发布后,全国一体化算力网的建设浩荡展开。意见中多次提及“算网协同”,明确指出“加快算网协同编排调度技术部署应用”、“探索算网协同运营机制”。实际上,自2019年业界相关研究起步,“算力网”、“算力网络”、“算力互联网”等概念层出不穷,“算网协同”、“算网融合”、“算网一体”等路线众说纷纭。为科学推进全国一体化算力网、有效实践算网协同,务须明确“算力网”和“算网协同”的内涵。2025年4月,全国一体化算力网监测调度平台建设指南(简称指南)正式公开征求意见,对算力网的内涵进行了阐述,从顶层设计来看,算力网不是对于多方传统云计算平台进行简单的封装与转售:使用方式使用方式,将从传统的“买算/租算”转为“用算”;渠道特征渠道特征,将从传统的“互联网自选下单订购”转为“算力网动态调度消纳”;网络网络连接连接,可基于互联网或专用网络,专用网络相比于互联网可实现更好的服务质量保障。可以看到,算力网是一种新型的服务模式,是一种包含了网络、算力、平台的服务能力集合,而算力网络应属于算力网中的一种专用网络,算力互联网应属于一种基于互联网的算力网形态。指南中的这些顶层设计,在底层逻辑上牵引了“全国一体化算力网”中“算网协同”的实践方向。当使用方式将从“买算/租算”转为“用算”、渠道特征从“互联网自选下单订购”转为“算力网动态调度消纳”,意味着算力资源将从传统的“虚拟机/裸金属”逐步转IV为“容器/作业”,并提供“最优匹配、按需启停、精准计量、效用付费”的任务式计算服务。任务式计算服务的时间特征具有“临时性”、空间特征具有“跳跃性”、流量特征具有“突变性”,即平时不用时任务不存在只有用时才临时启动任务,本次启动在A地X供应方而下次可能启动在B地Y供应方,平时不用时流量为0而用时流量会随计算服务负载大幅波动。那么,传输服务如何能够满足并匹配任务式计算服务的临时性、跳跃性、突变性?这必然要求网络资源的可调度。在互联网不具备调度能力的情况下,如何通过专用网络更好地匹配任务式计算服务的特征与需求?这就是算力网中算网协同的实践方向。进一步地,如何将这种实践能够构建在跨东西部区域的广域网络之上,就是面向东数西算的算网协同。东数西算算网协同调度-业务场景白皮书(简称白皮书)的编制,是基于国家东数西算“安全新总线”项目所开展的算网协同工程实践。“安全新总线”通过400Gbps互联了国家八大枢纽节点、以及多个国家超算中心,可根据任务时延、带宽需求提供广域确定性网络传输质量,并通过网络操作系统开放网络资源的调度能力,算网协同调度平台即原生构建其上。白皮书以业务场景视角切入,对东数西算算网协同调度的调度架构、应用场景、生态模式等进行了深入的分析论述。希望能够通过本白皮书,为业界树立面向东数西算的算网协同调度范式,为国家东数西算与全国一体化算力网的规模落地提供未来网络实践经验。V目录目录.V一、“东数西算”概述.11.1背景.11.2目标及意义.11.3发展历程及现状.21.4本文内容结构.2二、整体架构.3三、调度架构.43.1总分调度架构.53.2分总调度架构.83.3混合调度架构.14四、应用场景.194.1东数西算场景.194.2数据快递场景.294.3东数西存场景.354.4协同训练场景.444.5协同推理场景.664.6西训东推场景.79五、生态模式.102VI5.1边云一体模式.1025.2云算分离模式.1045.3边缘共享模式.106六、商业价值与前景展望.1081一、“东数西算”概述一、“东数西算”概述1.1背景背景随着数字经济的迅猛发展,数据量呈爆发式增长,对算力的需求也日益迫切。然而,我国东部地区经济发达,数据需求旺盛,但面临土地、能源等资源紧张的问题,算力供给受限;而西部地区资源丰富,具备发展数据中心的天然优势,但数据需求相对不足。在此背景下,我国“东数西算”工程应运而生。“东数西算”就是将东部地区产生的数据传输到西部地区进行计算和存储,促进东西部算力协同联动。1.2目标及意义目标及意义目标:目标:通过“东数西算”工程,在全国范围内规划建设多个国家级算力枢纽节点和大数据中心集群,形成布局合理、绿色集约的算力基础设施体系。实现算力的规模化、集约化发展,提升算力使用效率,降低算力使用成本,推动算力资源的高效配置。意义:意义:从经济角度看“东数西算”工程带动了数据中心建设、网络通信、IT设备制造、软件等相关产业的发展,促进了产业结构优化升级,为经济增长注入新动力。在资源利用方面,充分发挥了西部地区的能源优势,提高了能源利用效率,实现了东西部资源的优势互补。同时,有助于缩小东西部数字经济发展差距,推动区域协调发展,提升我国整体数字经济竞争力,为数字中国建设提供坚实支撑。21.3发展历程及现状发展历程及现状2021年,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发 全国一体化大数据中心协同创新体系算力枢纽实施方案,为“东数西算”工程奠定了政策基础。2022年2月,国家正式全面启动“东数西算”工程,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划10个国家数据中心集群。截至目前,各枢纽节点和数据中心集群建设稳步推进,算力规模不断扩大,网络传输能力逐步提升,初步形成了全国一体化算力网的基本框架。2023年底,国家发改委、数据局、网信办、工信部等多部委联合印发关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见,明确了全国一体化算力网的指导思想、基本原则和建设目标。意见多次提及“算网协同”,明确指出“加快算网协同编排调度技术部署应用”、“探索算网协同运营机制”,为算网协同的发展确立了基础。1.4本文内容结构本文内容结构本文的编制,是基于国家东数西算“安全新总线”项目所开展的算网协同工程实践。深入分析“东数西算”工程中的总分调度、分总调度、混合调度的总体调度架构,东数西算、数据快递、东数西存、协同推理、协同训练和西训东推等核心应用场景,以及边云一体、云3算分离和边缘共享等新型生态模式。同时,通过对典型应用场景的详细的业务流程分析,力求为产业参与者提供可操作、可复制的交付参考与决策依据,加速“东数西算”从战略规划向工程落地的转化进程。二、整体架构二、整体架构系统整体架构如图 2-1 所示:异地、异构、异属的各类算力资源通过网关实现物理与逻辑层面的并网,构建起“全域可达、动态可控、高效可用”的算力资源池,为算网协同调度平台提供标准化的资源服务支撑。图2-1整体架构图算网协同调度平台包含两大用户入口及四个调度模块,功能如下:资源需方入口资源需方入口:资源需求方可通过该入口发布涵盖算力、存储、网络等多维度的应用需求。平台将基于全域算力资源池,4精准调度匹配需求的算力及网络资源,完成用户任务的部署与执行。资源供方入口:资源供方入口:资源供应方可通过该入口向平台注册算力资源,同时登记账户信息等相关内容,实现资源发布、调度、使用、计量、计费及结算的全业务流程闭环。协同调度模块:协同调度模块:通过协同任务调度、流量调度与数据调度,满足算力消费者对系统在算力、网络、存储等多维度的使用需求。任务调度模块:任务调度模块:接受协同调度的调控,聚焦算力维度需求,调度相应算力资源以支撑用户任务的算力供给。流量调度模块:流量调度模块:接受协同调度的调控,聚焦网络维度需求,调度相关资源以保障用户任务的网络支撑。数据调度模块:数据调度模块:接受协同调度的调控,聚焦存储维度需求,调度对应资源以满足用户任务的存储需求。三、调度架构三、调度架构在东数西算场景中,算力资源的全域统筹与动态调配构成了新型基础设施的核心能力。面对多样化的业务需求与复杂网络环境,单一调度模式难以满足所有场景。为此,需进一步探索总分、分总、混合三种典型调度架构,通过差异化的层级设计与控制策略,构建更加灵活适配的算力网调度体系。53.1总分调度架构总分调度架构全局调度为“总”,区域调度为“分”,总分调度架构指的是在全局调度与区域调度构成的层级调度结构中,以全局调度为业务入口,经由全局调度将业务需求拆分,下发到区域调度,再由区域调度完成业务的部署与运行。3.1.1背景描述背景描述在算力资源全网分布的生态体系中,每一算网资源均可自主经营,构建独立的运维、管理、结算系统。3.1.2目标效果目标效果算力使用者在使用算网资源时,能够通过算网协同调度平台为统一平台,实现对所有算网资源的无差别调度使用。这意味着,无论资源的属性和管理方式如何,用户只需关注自身的业务需求,无需了解资源的复杂细节,即可便捷、高效地获取所需算力、网络和存储资源,享受一体化的优质服务体验。这种无差别调度模式极大地简化了资源获取流程,提高了用户的使用便利性,降低了用户的使用门槛,有助于吸引更多潜在用户进入算力市场。3.1.3业务流程业务流程步骤一:资源注册登记与纳管步骤一:资源注册登记与纳管6算力提供者积极响应市场需求,主动向算网协同调度平台进行资源注册登记。这一过程如同企业在市场中进行合法合规的商业注册,通过详细、准确地提交自身算网资源的各项参数和特性,如CPU核心数量、内存容量、GPU性能、存储类型及容量等关键信息,将自身资源纳入算网协同调度平台的统一管理范畴。算网协同调度平台则扮演着“市场监管者”和“资源整合者”的角色,运用多种的技术手段和管理策略,对这些资源进行集中纳管,构建起一个庞大、有序的算力资源库,为后续的高效调度奠定坚实基础。图3-1总分调度-资源注册登记与纳管步骤二:资源状态上报步骤二:资源状态上报为了确保算网协同调度平台能够实时掌握资源的动态情况,实现精准调度,算力提供者需要定期或实时向调度中心上报算网资源状态。这些状态信息涵盖了资源的关键性能指标,如空闲可用的CPU核心数量、内存数量、GPU数量以及存储容量等。通过及时、准确的状7态上报,调度中心能够如同拥有了一双“透视眼”,清晰地了解资源的实时情况,从而根据用户的需求进行科学合理的调度安排,避免资源的闲置浪费或过度使用,提高资源的整体利用效率。图3-2总分调度-资源状态上报步骤三:算网调度操作与协同调度步骤三:算网调度操作与协同调度当算力使用者产生业务需求时,他们只需通过算网协同调度平台提供的便捷操作界面(如控制台等),发起算网调度请求。调度中心在接收到请求后,迅速启动协同调度机制,如同一位经验丰富的指挥家,协调各方资源,综合考虑用户的算力、网络和存储需求,以及当前资源池中各类资源的实时状态,制定出最优的调度方案。通过准确的任务分配、流量调度和数据传输安排,满足用户多样化的应用需求,确保业务的高效运行。8图3-3总分调度-算网调度操作与协同调度3.2分总调度架构分总调度架构3.2.1背景描述背景描述在算力资源池的生态中,具有自治能力的算网资源以其独立的运维、管理、结算系统为依托,在接入整体算力资源池后,如同一个个充满活力的“小生态”,在保持自身业务独立性和创新性的同时,积极寻求与外部资源的协同合作。这些算网资源期望借助自身的业务入口,突破地域和资源限制,调度使用全局算网资源,实现资源的优化配置和业务的拓展升级。这种模式不仅丰富了算力市场的竞争格局,还促进了资源的共享与流通,为整个产业的发展带来了新的机遇和活力。93.2.2目标效果目标效果一方面,算力使用者通过算网协同调度平台总入口,能够像在总分调度场景中一样,实现对系统内所有算网资源的无差别调度使用,享受统一、便捷的资源服务。另一方面,算力使用者还可以通过自治系统业务入口,同样实现对其他系统内所有算网资源的无差别调度使用。这一创新模式为用户提供了更多的选择和灵活性,满足了不同用户在不同场景下的多样化需求,进一步提升了用户的使用体验和满意度。3.2.3业务流程业务流程步骤一:资源注册登记与纳管步骤一:资源注册登记与纳管同总分调度场景类似,算力提供者首先向算网协同调度平台进行资源注册登记,将自身的算网资源信息全面、准确地提交给调度中心。调度中心则运用专业的管理技术和高效的处理流程,对这些资源进行集中纳管,构建起一个完整、有序的算力资源目录,为后续的调度工作提供坚实的数据支持10图3-4分总调度-资源注册登记与纳管步骤二:资源状态上报步骤二:资源状态上报为了保障调度的准确性和及时性,算力提供者需要持续向调度中心上报算网资源状态,包括资源的实时使用情况、性能指标变化等关键信息。这些信息如同资源的“健康报告”,帮助调度中心及时了解资源的动态变化,以便在调度过程中做出更加科学合理的决策。图3-5分总调度-资源状态上报步骤三:算网资源调度使用步骤三:算网资源调度使用 北向调度11算力使用者通过算网协同调度平台进行算网调度操作,调度中心根据用户的需求和资源状态,启动协同调度机制。这一过程涉及到对多种资源的统筹安排,包括任务的合理分配、流量的准确调度以及数据的高效传输,以满足用户在算力、网络和存储方面的综合应用需求,确保业务的稳定、高效运行。需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的应用副本和算网协同调度平台调度部署的应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。图3-6分总调度-算网资源调度使用-北向调度 全局缩略图方式调度需求提交12当算力使用者通过自治系统进行算网调度操作时,如果本地资源无法满足业务需求,自治系统会将这些未满足的要求提交给算网系统调度平台,如同在市场中寻求外部合作伙伴的支持。资源快照返回算网协同调度平台在接收到请求后,迅速对整体算网资源进行扫描和分析,生成一份全局算网资源快照。这份快照包含了各类资源的实时状态和关键信息,就像是一份详细的“算网资源清单”,为后续的调度决策提供了全面的参考依据。基于快照调度与部署自治系统根据这份资源快照,结合自身业务需求和调度策略,进行资源调度决策,并将请求发送给目标算网资源,完成业务部署。这一过程充分体现了资源的共享和协同,提高了资源的利用效率,满足了用户多样化的业务需求。图3-7分总调度-算网资源调度使用-全局缩略图方式调度13 东-北-西方式调度需求提交与计算算力使用者通过自治系统发起算网调度请求,当本地资源不足时,自治系统将需求提交给算网协同调度平台,算网协同调度平台基于当前算网资源状态,运用有效的算法和模型进行调度计算,制定出最优的调度方案,确定目标资源和任务分配策略。需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的应用副本和算网协同调度平台调度部署的应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。调度方案返回算网协同调度平台将可选的调度方案返回给自治系统,自治系统进行人工或者自动的选择,确定调度方案。请求发送与部署根据确定的调度方案,算网协同调度平台将请求发送给目标资源,完成业务部署,确保任务能够在最合适的资源上高效执行。调度结果返回调度完成后,算网协同调度平台将调度结果返回给源自治系统,让其及时了解任务的执行情况和资源的使用状态,便于后续的业务管理和优化。14图3-8分总调度-算网资源调度使用-东-北-西方式调度3.3混合调度架构混合调度架构3.3.1背景描述背景描述在复杂的分布式计算架构体系下,针对具有自治能力的的资源提供方而言,其在承担算力使用方角色时,具备多样化且灵活的算力需求调度策略选择。当资源提供方在自治系统内进行算力需求调度处理时,可凭借系统内部自有的资源管理与调度机制,独立开展算力资源的调配工作,这种方式能够充分利用自治系统内部资源的局部优势,实现快速、自主的资源调配,降低对外部系统的依赖。资源提供方也可采用分总调度模式,借助自治系统向算网协同调度平台提交算力需求。自治系统作为一个具有独立管理和控制能力的网络实体,在该过程中充当了连接自治系统与算网协同调度平台的桥梁。资源提供方将自身的算力需求进行规范化整理与封装,通过自治15系统所定义的接口与通信协议,将需求信息传输至算网协同调度平台。在此情形下,算网协同调度平台在接收到需求后,算网协同调度平台会识别自治系统所属的资源范围,并在资源筛选与调度过程中,将这部分资源予以过滤,转而在其他更为广泛的资源池内,对算力需求进行优化匹配与调度。算网协同调度平台依托其庞大的资源数据库,其中涵盖了来自不同地理区域、各类资源供应主体的丰富资源信息,从众多外部资源中筛选出最契合算力使用方需求的资源组合,实现跨区域、跨系统的资源高效调配,以满足自治系统资源提供方作为算力使用方的复杂需求。此外,当资源提供方作为算力使用方,不期望算网协同调度平台过滤己方资源时,可直接向算网协同调度平台发起总分调度请求。在这种模式下,资源提供方将自身的算力需求,包括详细的计算需求(如计算架构类型、算力大小等)、存储需求(存储容量、存储介质偏好等)以及网络需求(网络带宽、传输延迟要求等),以标准化的格式提交给算网协同调度平台。算网协同调度平台则将资源提供方自身的资源纳入全局资源调度的范畴,综合评估所有可获取的资源,包括来自不同区域、不同类型的计算资源、存储资源以及网络资源,运用全面的资源优化算法,进行统一的资源调度与分配,旨在实现对算力使用方需求的精准满足,同时充分挖掘和利用所有潜在的资源优势。3.3.2目标效果目标效果增强资源调配自主性16自治系统资源提供方作为算力使用方,可依自身情况,自主决定在系统内独立调度、借助自治系统分总调度或直接发起总分调度,灵活把控资源调配流程,契合复杂多变的业务需求场景。达成资源高效协同不同调度模式下,算网协同调度平台及自治系统内调度机制,整合本地与外部资源,运用有效算法实现资源的跨区域、跨系统优化配置,提高资源整体利用率。确保业务稳定运行面对各类复杂业务需求,多样的调度方式保障资源提供方总能找到优化方案,获取充足且适宜的计算、存储、网络资源,维持业务连续性,助力业务稳步拓展。实现成本效益最优资源提供方通过合理选择调度策略,既能充分挖掘本地资源潜力,减少外部资源调用开支,又能在全局调度中优化资源组合,避免资源闲置浪费,降低总体资源调度成本,提升投入产出效益。3.3.3业务流程业务流程步骤一:资源注册登记与纳管步骤一:资源注册登记与纳管算力提供者首先向算网协同调度平台进行资源注册登记,将自身的算网资源信息全面、准确地提交给调度中心。调度中心则运用专业的管理技术和高效的处理流程,对这些资源进行集中纳管,构建起一个完整、有序的算力资源目录,为后续的调度工作提供坚实的数据支17持。图3-9混合调度-资源注册登记与纳管步骤二:资源状态上报步骤二:资源状态上报为了保障调度的准确性和及时性,算力提供者需要持续向调度中心上报算网资源状态,包括资源的实时使用情况、性能指标变化等关键信息。这些信息如同资源的”健康报告”,帮助调度中心及时了解资源的动态变化,以便在调度过程中做出更加科学合理的决策。18图3-10混合调度-资源状态上报步骤三:算网调度操作与协同调度步骤三:算网调度操作与协同调度在混合调度架构下,算力使用者可以使用多种方式利用作为资源提供方的资源和系统整体的算力资源,从不同的层面满足需求具体有以下三种需求处理路径:自治系统内部调度算力使用者向自治系统提交需求。自治系统 利用内部资源管理与调度模块,实时监测系统内计算、网络、存储资源状态,依据使用者需求,运用本地预设算法,在系统内筛选、匹配、调度资源,利用内部资源优势,实现快速自主调配,降低对外部系统的依赖。自治系统与算网协同调度平台协同处理若自治系统评估自身资源无法满足需求,会按既定协议和流程,将未满足部分以标准格式提交给算网协同调度平台。算网协同调度平台收到需求后,识别并过滤自治系统所属资源,依托资源数据库,运用优化算法,在其他资源池内重新匹配调度,实现跨区域、跨系统的高效资源调配,弥补自治系统资源不足。需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的应用副本和算网协同调度平台调度部署的应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。19直接向算网协同调度平台请求调度算力使用者也可直接向算网协同调度平台提需求。此时,算网协同调度平台从全局出发,综合考量包括自治系统资源在内的整体资源池,依据使用者详细需求和资源实时状态,运用优化算法统一调配计算、网络、存储资源,准确满足需求,挖掘潜在资源优势,保障业务在充足资源支持下高效运行。图3-11混合调度-算网调度操作与协同调度四、应用场景四、应用场景4.1东数西算场景东数西算场景4.1.1场景描述场景描述在我国数字化发展的进程中,东部地区凭借其人口密集、经济发达的优势,成为了数据的“高产田”。大量的数据如潮水般不断涌现,20涵盖了金融、电商、社交等各个领域,这些数据的处理需求极为迫切。然而,东部地区在数据处理过程中面临着严峻的挑战电力紧张且成本高昂。电力作为数据处理的关键支撑,其短缺和高成本严重制约了东部数据中心的发展。与之形成鲜明对比的是,西部地区拥有丰富的电力资源,且电价相对经济实惠。这一得天独厚的优势使得西部地区成为了数据处理的理想之地。因此,“东数西算”战略应运而生,旨在将东部地区产生的数据处理任务有序、高效地转移到西部数据中心进行处理。这不仅能够充分利用西部地区的电力资源优势,降低数据处理成本,还能促进西部地区的数字经济发展,实现区域间的优势互补和协同发展。4.1.2目标效果目标效果在东数西算场景里,“数据跟随任务走,流量匹配数据传”是提升效率的重要理念。任务启动时,所需数据同步就位,精准贴合任务流程,为其提供支撑。与此同时,流量依据数据的规模、存储类型及传输紧急程度进行适配,保障数据快速、稳定传输,让任务执行全程无阻,高效达成目标,有力推动业务持续发展。应用部署优化根据算网用户的多样化需求,算网协同调度平台利用资源调配能力精准匹配数据处理应用与西部具有合适价格、算力和存储条件的算网资源,实现应用的高效部署,确保业务的稳定运行和成本的有效控制。21数据迁移保障通过定制化的确定性广域网,算网协同调度平台为东部数据的迁移提供可靠的网络通道,确保数据能够安全、快速地从东部数据中心迁移到西部数据处理应用所在的算网资源,保障数据的完整性和可用性。数据集处理策略算网协同调度平台针对不同特性的数据集采用差异化处理方式。在整体数据集处理方面,在数据迁移完成后再启动数据处理应用,以此确保数据处理的准确性与高效性。而对于持续更新/增长的动态数据集,在部署数据处理应用的同时即刻启动处理流程:对源和目的的数据集间进行实时高效地同步,从而满足业务对数据时效性的严苛要求。4.1.3业务流程业务流程步骤一:数据生成与步骤一:数据生成与ID标识标识在东部地区,各类业务系统不断产生海量数据,这些数据被写入本地数据中心进行存储。为了实现对数据的精准管理和追踪,系统会为每个数据集生成唯一的ID标识,如同为每件商品贴上独一无二的”条形码”,方便后续的数据处理和调度操作。22图4-1东数西算-数据生成与ID标识步骤二:任务发布与需求明确步骤二:任务发布与需求明确算力使用者根据业务需求,通过算网协同调度平台发布数据处理任务。在发布过程中,用户需要详细明确各项任务要求,包括指定待处理的数据集ID,确保处理的准确性;提出处理数据所需的算力要求,如算力大小、价格预期以及算力类型(如神威、天河等),以满足不同业务对算力的差异化需求;规定待数据集的存储要求,包括存储容量、价格和存储类型,确保数据存储的安全性和经济性;明确迁移数据的网络需求,如所需带宽和流量,保障数据传输的高效性和稳定性。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。23图4-2东数西算-任务发布与需求明确-总分调度 混合调度架构此架构下,算力资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,所以需要在调度请求中携带自治系统中部署的应用信息如等。24图4-3东数西算-任务发布与需求明确-混合调度步骤三:协同调度与结果生成步骤三:协同调度与结果生成算网协同调度平台在接收到数据处理任务请求后,迅速启动协同调度机制。它综合考虑当前算网资源的实时状态,包括西部各数据中心的算力、存储和网络资源情况,最终生成包含任务调度结果、流量调度结果和数据调度结果的调度结果集,为后续的任务执行提供详细的指导方案。需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。25图4-4东数西算-协同调度与结果生成步骤四:调度结果实施与数据迁移步骤四:调度结果实施与数据迁移 任务调度任务调度模块根据协同调度生成的结果,将数据处理应用准确部署到西部合适的算网资源上,确保应用能够在最佳的环境中运行,发挥最大的效能。图4-5东数西算-调度结果实施与数据迁移-任务调度26 流量调度流量调度模块借助确定性网络网络控制器,为数据迁移准备高速、稳定的网络通道,优化网络配置,避免数据在迁移过程中收到网络拥塞等问题的限制,实现快速、安全的传输。图4-6东数西算-调度结果实施与数据迁移-流量调度 数据调度数据调度模块在源数据中心(东部)与目的数据中心(西部)之间启动数据迁移操作,依据预设的调度方案,将待处理数据集从东部源数据中心高效传输至西部目的数据中心,为后续数据处理工作奠定坚实基础。27图4-7东数西算-调度结果实施与数据迁移-数据调度 网络资源释放在数据迁移传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-8东数西算-调度结果实施与数据迁移-网络资源释放步骤五:数据处理步骤五:数据处理28在完成数据迁移后,数据处理应用开始对西部数据中心的待处理数据进行处理。通过运用各种的数据处理技术和算法,挖掘数据中的潜在价值,为企业的决策制定、业务创新和市场拓展提供有力支持,实现数据的商业价值最大化。图4-9东数西算-数据处理步骤六:应用删除与数据清理步骤六:应用删除与数据清理任务型应用在运行结束后,及时进行应用的删除工作。对于数据清理,这是一项具有灵活性的操作。在实际执行中,清理应用生成的临时数据为必选动作,以此释放存储空间,提升系统运行效率。而针对应用所消费的数据,是否清理则为可选行为。若后续业务流程不再需要该部分数据,或出于数据隐私、存储成本等方面考虑,可选择清理相关数据集;若该数据仍具有潜在价值,如可能在未来相似任务中复用,则可保留。这种灵活的处理方式旨在平衡资源利用与数据留存的多元需求。29图4-10东数西算-应用删除与数据清理4.2数据快递场景数据快递场景4.2.1场景描述场景描述在智算大模型训练、超算科学计算与工程仿真等前沿领域,海量数据集是驱动创新的关键要素。传统的数据传输方式,如机械化运载海量硬盘甚至整个存储机柜,在效率、安全性和成本方面面临诸多挑战。例如,运输过程易受物理环境影响,数据丢失或损坏风险高;运输时间长,无法满足快速迭代的业务需求;高昂的运输和人力成本也给企业带来沉重负担。而传统互联网同样难以支撑这些前沿领域对数据传输的严苛要求。其网络带宽有限,在面对海量数据洪流时,传输速度缓慢,严重影响数据处理时效。并且,传统互联网网络稳定性欠佳,极易受到网络拥塞、节点故障等因素干扰,导致数据传输中断或出错,对于不容许丝毫差错的大模型训练和高精度科学计算而言,这30无疑是巨大阻碍。同时,传统互联网基于尽力而为的传输机制,无法为特定任务提供有保障的传输质量,难以契合前沿科研和创新应用对数据传输确定性、可靠性的需求。随着确定性广域网的发展,其高带宽和确定性传输能力为数据传输带来新的解决方案。借助信息化手段,实现海量数据的高速、安全传输,如同搭建一条数据高速公路,有效提升数据传输效率,降低成本,增强数据安全性,为前沿科研和创新应用提供有力支撑。4.2.2目标效果目标效果准确迁移定位用户可根据业务需求,准确指定数据迁移目的地,确保数据准确送达所需位置,满足不同业务场景下对数据存储和处理的特定要求,提高数据使用的针对性和效率。异构存储兼容具备良好的兼容性,能够与各类硬盘设备和多种存储系统无缝对接,提供海量高效的文件读写能力,支持异构格式和不同大小文件的处理。这意味着企业无需担心数据格式和存储设备的差异,可轻松实现数据的传输和处理,降低数据管理的复杂性。高效任务式传输在数据传输领域,准备时间的长短往往决定了业务响应的速度。我们所提供的任务式跨广域数据传输服务,将这一关键环节做到极致,实现分钟级业务开通。用户可根据自身实际需求,轻松定制小时级或31分钟级的业务服务时长。与传统传输模式动辄需要数小时甚至数天来筹备数据传输不同,我们的灵活、高效传输模式,将数据传输准备时间极大地压缩,精准契合企业对业务时效性的严苛要求。多样接入选择为用户提供多样化的广域接入方式,满足不同企业在网络环境和成本预算上的差异。无论是光纤专线接入,还是其他灵活的接入方案,企业都能根据自身情况选择最适合的接入方式,确保数据传输的稳定性和经济性。高速传输能力在光纤专线接入方式下,面向单任务可提供高达端到端Gbps至Tbps级的传输能力,实现海量数据的快速传输。这一高速传输能力能够大幅缩短数据传输时间,加速业务处理进程,使企业能够更快地获取数据价值,在激烈的市场竞争中占据优势。4.2.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布数据处理任务,详细指定待迁移的数据集ID,明确数据迁移目的,以及迁移数据所需的网络带宽和流量要求。这一过程如同在物流平台下单,用户清晰告知发货地、收货地和运输要求,确保调度中心准确理解业务需求,调度中心接收到任务后,启动协同调度机制,根据指定的目的地和网络需求,生成详细的数据快递任务操作集,包括流量调度操作集和数据迁移操作集。这32一操作集如同详细的运输计划,规划了数据传输的路径、方式和时间安排,确保数据传输的高效有序。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-11数据快递-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,自治系统在没有全局资源视图的情况下无法指定数据快递的目的地,所以在这种情况下,需要结合缩略图的混合调度方式,自治系统先行得到全局资源的缩略图,如图红线所示。33图4-12数据快递-任务发布-混合调度步骤二:调度执行步骤二:调度执行 流量调度流量调度模块借助网络控制器,为数据迁移准备高速、稳定的网络通道。通过优化网络配置和资源分配,确保数据在传输过程中能够获得充足的网络带宽,避免网络拥堵,保障数据传输的流畅性。图4-13数据快递-调度执行-流量调度34 数据调度数据调度模块在源数据中心和目的数据中心之间发起数据迁移操作,按照预定的操作集,将待处理数据集从源数据中心快速、准确地迁移到目的数据中心。在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-14数据快递-调度执行-数据调度 网络资源释放在数据快递任务传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。35图4-15数据快递-调度执行-网络资源释放4.3东数西存场景东数西存场景4.3.1场景描述场景描述众多行业客户在日常运营中持续产生海量数据,随着时间的不断推移,本地数据中心的存储容量日益难以承载这一数据增长趋势。在这些数据中,大量具有长期保存价值但当前使用频率较低的数据,急需合理归档存储。将部分数据转移到公共云端进行归档存储,已然成为应对这一存储难题的必然选择。传统的数据归档做法是,大型公有云通过邮寄存储网关到客户本地数据中心,在完成数据拷贝后,再运输到公有云网络接入点,最后借助专用网络传输到指定区域。这种方式流程繁琐、耗时漫长,且存在数据丢失风险。而在西部,一些小型公有云或通算中心由于缺乏自建专网,使得数据归档传输更是面临重重挑战。36此时,确定性广域网的优势得以充分彰显,它专门为这些需要归档的数据构建起高速传输通道。通过这一通道,企业能够将本地需归档的数据快速、稳定地传输至公共云端,打破了数据存储的地域限制,实现数据的高效归档存储与管理。这不仅大幅降低了企业的存储成本,还极大地提升了数据存储的安全性与可靠性,确保归档数据得以长期妥善保存,为企业数据资产的持续积累与深度利用筑牢根基。4.3.2目标效果目标效果数据快递与东数西存虽都借助确定性广域网提升数据传输效能,但在诸多方面存在显著差异。在应用场景上,数据快递聚焦于智算大模型训练、超算科学计算与工程仿真等前沿领域,这些领域对数据处理时效要求极高,需快速获取和传输海量数据以驱动创新;而东数西存主要针对众多行业客户日常运营中产生的大量具有长期保存价值、当前使用频率较低的数据,旨在解决本地数据中心存储容量不足的难题。从数据特点来看,数据快递涉及的是在前沿科研和创新应用中用于实时计算、迭代的数据,数据量庞大且更新频繁;东数西存的数据则相对稳定,重点在于长期归档保存。在业务要求上,数据快递为实现前沿业务快速迭代,满足业务对时效性的严格要求;东数西存是为达成数据的高效存储与管理,降低存储成本,提升数据存储安全性与可靠性。优化存储配置根据算网用户需求,算网协同调度平台精准匹配东部数据与西部37具有合适价格和存储条件的算网资源,实现数据的高效存储。企业可在降低存储成本的同时,确保数据存储的安全性和可靠性,如同在不同仓库中选择最为经济、安全的存储地点。异构存储适配具备与多种硬盘设备和存储系统对接的能力,提供海量高效的文件读写服务,支持异构格式和不同大小文件的处理,自动感知源和目的两地存储环境的特性差异,动态适配两端的读写速率,同时无缝对接公有云归档存储系统。这使得企业在数据存储和管理上更加灵活,无需担心设备和格式兼容性问题,提高数据管理效率。高效数据传输服务提供任务式的跨广域数据传输能力,实现分钟级业务开通,支持定制小时级或分钟级业务服务时长。这种高效的传输服务能够快速响应企业数据存储需求,减少数据存储等待时间,提高企业运营效率。多样接入方式提供多样化的广域接入方式,满足不同企业的网络环境和成本需求。企业可根据自身实际情况选择最合适的接入方式,确保数据传输的稳定性和经济性,提升企业对数据存储服务的适应性。高速传输性能在光纤专线接入方式下,可为单任务提供端到端Gbps级别的传输能力,实现数据的快速存储。鉴于东数西存业务特性,企业可充分依据自身业务节奏,选择在网络闲时进行数据传输。比如,将东部数据中心需转移至西部存储的数据备份、归档等任务,合理规划在闲时38执行。此时,网络不仅具备高带宽优势,稳定性也更佳,企业能够高效地把大量数据传输至西部存储设备。这种方式不仅充分盘活了网络闲时资源,避免了资源的白白浪费,还极大地提升了数据存储效率。全生命周期管理提供任务进度实时查询和详细日志记录功能,让用户随时了解数据迁移和存储状态,增强用户使用体验。同时,具备超过最低存储时间后自动删除文件的能力,有效管理存储资源,避免存储空间浪费。4.3.3业务流程业务流程步骤一:数据生成与标识步骤一:数据生成与标识东部地区企业在业务开展过程中产生大量数据,这些数据被写入本地数据中心,并生成唯一的数据集ID。这一ID如同数据的“身份证”,方便后续的数据管理和追踪,确保数据的准确性和可追溯性。图4-16东数西存-数据生成与标识39步骤二:任务发布步骤二:任务发布算力使用者通过调度中心发布数据迁移任务,详细指定待处理的数据集ID、存储容量和价格要求、迁移数据的网络带宽和流量需求,以及设定归档超时时间。这一过程明确了数据存储的各项要求,为调度中心制定合理的调度方案提供依据。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-17东数西存-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求。40图4-18东数西存-任务发布-混合调度步骤三:调度结果生成步骤三:调度结果生成调度中心接收到任务后,依据当前算网资源状态,启动协同调度机制,生成包含任务流量调度结果和数据调度结果的调度结果集。这一结果集是数据存储任务的详细执行计划,确保资源的合理分配和数据的高效传输,需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。41图4-19东数西存-调度结果生成步骤四:调度执行步骤四:调度执行 流量调度流量调度模块借助网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达西部目的数据中心,保障数据传输的稳定性。图4-20东数西存-调度执行-流量调度42 数据调度数据调度模块在东部源数据中心和西部目的数据中心之间发起数据迁移操作,将待处理数据集从东部迁移到西部,完成数据的归档存储。在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-21东数西存-调度执行-数据调度 网络资源释放在东数西存任务传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。43图4-22东数西存-调度执行-网络资源释放步骤五:归档文件管理步骤五:归档文件管理当到达设定的超时时间后,协同调度向数据调度发起删除归档指令,数据调度据此向目的数据中心发起删除归档文件操作,实现存储资源的自动清理和回收,提高存储资源的利用效率,并节省用户的不必要的开支。44图4-23东数西存-归档文件管理4.4协同训练场景协同训练场景4.4.1场景描述场景描述在智算领域,随着人工智能技术的飞速发展,大模型训练成为推动创新的关键环节。然而,当前部分智算中心存在高端GPU算力资源碎片化建设与使用的状况。这一现象导致小型互联网公司、行业客户以及科研客户在开展大模型训练,尤其是模型预训练时,常常遭遇单智算中心资源不足的困境。由于缺乏有效的跨智算中心协同训练机制,这些客户只能被动等待,直至有足够的资源释放,这不仅延长了项目周期,增加了时间成本,还可能使企业错失市场先机,科研进展受阻。借助调度平台的跨智算调度能力,可实现多个智算中心共同协作完成一个训练任务。同时,通过优化网络配置,保障任务内部跨智算中心的并行流量,能够显著提升计算通信加速比,提高训练效率,降低资源浪费,为企业和科研机构提供更高效、更经济的大模型训练解决方案。4.4.2目标效果目标效果模型规模支持能够面向千亿或以下参数量大模型训练,满足不同规模和复杂度45模型的训练需求,为人工智能领域的前沿研究和应用创新提供有力支撑。多元主体兼容支持不同运营主体、网络规划相互独立的智算中心参与协同训练。这意味着无论是大型科技企业的私有智算中心,还是面向市场服务的公共智算平台,都能打破壁垒,实现资源共享与协同,充分整合行业内的算力资源,提升整体算力利用率。异构GPU混训无缝兼容不同型号的GPU进行混合训练,在训练过程中,能够充分发挥各类GPU的独特优势,如某些GPU在数据处理速度上表现出色,而另一些在复杂算法运算方面更具效能,通过合理调配,让不同型号GPU协同工作,极大提升整体算力利用率,为各类复杂训练任务提供了更为灵活、高效的解决方案,有力推动人工智能训练迈向新高度。并行训练优化智算中心在提升训练效率上展现出卓越性能。其具备跨广域网、跨城市通过确定性网络通信的能力,保障数据传输稳定且低延迟,使分布于不同地区的智算中心协作无间,宛如共处同一机房,为大规模分布式训练筑牢网络根基。在此基础上,智算中心支持训练任务跨智算中心、跨广域并行运行,极大地降低了GPU资源空转率,有效规避资源浪费,显著提高资源利用效率,切实降低训练成本。不仅如此,通过算网协同调度和对训练框架的优化,智算中心能够将协同训练的46通信计算加速比精准控制在10%以内,最大程度减少训练过程中通信开销对计算效率的负面影响,全方位实现高效的分布式训练,为各类复杂的人工智能训练任务提供强有力的支撑。智算资源整合在数字经济蓬勃发展的当下,数据处理需求呈指数级增长。各个智算中心虽具备一定算力,但因任务分配不均、资源闲置等问题,产生了大量碎片化算力。这些算力亟待串连。通过科学合理地分配任务,精准匹配所需资源,能将分布于不同区域、不同规模智算中心的碎片化算力充分汇聚起来。如此一来,原本看似零散的算力,得以整合成强大的计算合力,为科研创新、大数据分析、人工智能训练等复杂任务提供坚实有力的支撑。容错能力保障支持故障恢复和断点续训等容错能力。在训练过程中,若某个智算中心出现故障,系统能够快速检测并切换,通过checkpoint机制自动恢复训练,减少因故障导致的训练中断和数据损失,保障训练任务的连续性和可靠性。4.4.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布训练任务,详细指定各项需求。包括待训练的数据集ID、模型文件、数据集预处理过程、存储要求(容量、价格),以确保数据的存储和预处理满足训练需求;指定迁移数47据的网络需求(带宽、流量),保障数据传输的高效性;明确训练的计算需求(CPU、GPU数/型号、框架、价格),根据模型特点和预算选择合适的计算资源;以及指定训练任务的网络需求(IB、RDMA,时延,带宽),满足训练过程中数据通信的严格要求。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-24协同训练-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的训练应用和算网协同调度平台调度部署的训练应用之间进行互相访问的流量调度,所以需要在调度请求中携带自治系统中部署的训练应用信息如等。48图4-25协同训练-任务发布-混合调度步骤二:调度规划步骤二:调度规划调度中心依据当前算网资源状态,对训练任务集进行综合调度,生成全面的调度结果集和操作集。其中包括数据集和模型迁移操作集,规划数据的传输路径和方式;训练任务调度结果集,确定各个智算中心承担的训练任务;以及流量调度结果集,保障数据传输和训练过程中的网络畅通。需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。49图4-26协同训练-调度规划步骤三:数据集和模型文件处理与迁移步骤三:数据集和模型文件处理与迁移协同调度将数据预处理操作集和数据集和模型文件迁移操作集交由数据调度、流量调度实施。数据调度负责对数据集进行预处理。标准化公开数据集和模型可以托管于算网协同调度平台的存储资源池中。在此模式下,数据迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度借助确定性广域网网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。50图4-27协同训练-数据集和模型文件迁移-平台托管-流量调度数据迁移数据调度发起数据迁移操作,将待处理数据集、模型从源数据中心迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-28协同训练-数据集和模型文件迁移-平台托管-数据迁移51网络资源释放在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-29协同训练-数据集和模型文件迁移-平台托管-资源释放 定制数据集、模型迁移私有定制化数据集、模型的迁移通常遵循特定的数据流动规范。这类数据集、模型的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全以等多重因素,那么数据集、模型会从用户的数据中心迁移到目的数据中心。流量调度借助网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保52障数据传输的稳定性。图4-30协同训练-数据集和模型文件迁移-本地托管-流量调度数据迁移数据调度发起数据迁移操作,将待处理数据集、模型从源数据中心迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-31协同训练-数据集和模型文件迁移-本地托管-数据迁移网络资源释放53在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-32协同训练-数据集和模型文件迁移-本地托管-资源释放 标准化公开数据集和模型可托管于公有云的存储资源池中。在此模式下,数据迁移操作在公有云与目标数据中心之间执行。流量调度借助网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。54图4-33协同训练-数据集和模型文件迁移-公有云托管-流量调度数据迁移数据调度发起数据迁移操作,将待处理数据集、模型从源公有云迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-34协同训练-数据集和模型文件迁移-公有云托管-数据迁移网络资源释放55在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-35协同训练-数据集和模型文件迁移-公有云托管-资源释放步骤四:任务部署步骤四:任务部署协同调度将训练任务调度结果集和流量调度结果集交由任务调度、流量调度实施。标准化训练镜像可以托管于算网协同调度平台的存储资源池中。在此模式下,镜像迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度流量调度模块借助确定性广域网网络控制器,为训练任务运行镜像的迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。56图4-36协同训练-任务部署-平台托管-流量调度镜像迁移数据调度发起数据迁移操作,将镜像从算网协同调度平台迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-37协同训练-任务部署-平台托管-镜像迁移网络资源释放57在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-38协同训练-任务部署-平台托管-资源释放 私有定制的训练镜像的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全等多重因素,那么镜像会从用户的数据中心迁移到目的数据中心。流量调度流量调度模块借助网络控制器,为训练任务运行镜像的迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。58图4-39协同训练-任务部署-本地托管-流量调度镜像迁移数据调度发起数据迁移操作,将镜像从用户数据中心迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-40协同训练-任务部署-本地托管-镜像迁移网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,59确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-41协同训练-任务部署-本地托管-资源释放 标准化训练镜像可以托管于用公有云的镜像仓库中。在此模式下,镜像迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度流量调度模块借助确定性广域网网络控制器,为训练任务运行镜像的迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。图4-42协同训练-任务部署-公有云托管-流量调度60镜像迁移数据调度发起数据迁移操作,将镜像从公有云迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-43协同训练-任务部署-公有云托管-镜像迁移网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-44协同训练-任务部署-公有云托管-资源释放61步骤五:流量调度步骤五:流量调度流量调度模块借助确定性广域网网络控制器,为分布式训练任务之间的通信准备网络通道,保障分布式训练任务之间之间的高效、高带宽的通信。图4-45协同训练-流量调度步骤六:任务部署步骤六:任务部署模型文件和应用镜像迁移完成,分布式训练任务间网络通道建立完成后,通过任务调度部署训练应用,确保训练任务在各个智算中心快速启动和运行。图4-46协同训练-任务部署62步骤七:任务运行步骤七:任务运行训练任务以数据集作为基础数据支撑。借助确定性网络所具备的独特优势,对训练过程实施并行加速策略。在确定性网络环境下,数据能够以高效且稳定的方式进行传输与交互,通过合理的任务分配与调度机制,将训练任务拆解为多个并行子任务,各个子任务在不同的计算节点上同步运行,显著提升训练效率。历经多轮迭代训练后,最终成功生成模型文件,该模型文件承载着基于数据集训练所学习到的特征与模式,为后续的相关应用提供了关键的基础支撑。图4-47协同训练-任务运行步骤八:任务清理和模型留存步骤八:任务清理和模型留存网络资源释放训练任务完成后,系统立即释放分布式训练任务内部的跨广域的网络通道,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用63效率。图4-48协同训练-任务清理和模型留存-资源释放应用删除和数据集清理当训练过程结束,协同调度模块依据预设流程,向数据调度模块发送删除指令。数据调度模块按照既定协议向目标数据中心发起数据集删除操作请求。目标数据中心的数据管理系统接收到请求后,自动启动存储资源清理流程,删除已完成训练任务所关联的数据集,实现存储资源的高效回收,提升了存储资源的利用效率。与此同时,系统自动触发训练应用的删除流程,清除运行时产生的临时文件等一系列操作,全面释放训练应用所占用的系统资源。64图4-49协同训练-任务清理和模型留存-应用删除和数据集清理流量调度流量调度模块借助确定性广域网网络控制器,为模型文件的留存准备稳定的网络通道,优化网络资源配置,确保传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。图4-50协同训练-任务清理和模型留存-流量调度模型文件留存数据调度严格依循预设指令,针对训练任务生成的模型文件,经65动态构建的网络通道,运用高效传输协议,将其可靠迁移至预设目标数据中心,依照既定存储架构与策略,存入对应介质及目录。图4-51协同训练-任务清理和模型留存-模型文件留存网络资源释放模型文件留存任务传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-52协同训练-任务清理和模型留存-资源释放664.5协同推理场景协同推理场景4.5.1场景描述场景描述在AI应用广泛普及的当下,推理服务面临着海量用户访问请求的挑战。为了提供优质的用户体验,不仅需要具备GPU的弹性并发能力,以满足高并发访问时的计算需求,还要有效降低推理服务成本,实现经济效益最大化。对于实时性要求较高的请求,在边缘云上使用GPU的成本问题尤为突出。现有公有云通过Serverless容器的方式为AI推理提供弹性能力,但由于AI镜像和模型文件较大,导致冷启动问题严重,这极大地影响了用户体验。此外,公有云通常无法提供城域级的边缘云服务,难以满足部分对实时性和本地化要求较高的应用场景。因此,协同全网边缘云上的GPU资源成为解决问题的关键,既能满足实时性请求,又能最大程度地降低推理成本,提升服务质量和竞争力。4.5.2目标效果目标效果并发能力提升支持调度多供应方的边缘算力来执行推理服务的并发操作,以此充分整合分散于各个边缘节点的算力资源,极大地提高系统的并发处理能力,保障在高流量访问场景下服务的稳定性与响应速度。同时具备基于GPU状态指标的弹性扩缩能力,可依据实时负载状况自动调整算力资源,避免资源浪费或过载,达成资源的动态优化配置。此外,67系统还能充分运用多个推理服务,借助智能调度算法有效均衡用户访问请求,将其合理分配至各个推理服务节点,防止单点负载过高,进而提升系统整体的处理效率以及用户满意度。模型独立演进模型和推理应用可以独立更新演进,独立部署和扩展。这使得开发者能够快速迭代模型和算法,无需担心对整个系统的影响,加速创新步伐,满足市场对AI应用不断升级的需求。冷启动优化支持基于用户请求访问的从0到1冷启动,并且具备冷启动加速能力,提升用户体验,使得AI应用能够快速响应用户请求,增强产品的竞争力。镜像和模型预热支持特定地域进行镜像和模型文件预热,提前将常用的AI镜像和模型文件加载到边缘节点,进一步缩短冷启动时间,提高服务的响应速度和质量。4.5.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布推理任务,明确指定推理任务的计算需求(CPU、GPU型号/数量、框架、价格)、网络需求(IB、RDMA)、地域需求以及任务类型为Serverless。这些详细的参数设定,确保调度中心能够精准匹配最合适的边缘算力资源,满足任务的多样68化需求。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-53协同推理-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的推理应用和算网协同调度平台调度部署的推理应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的推理应用副本和算网协同调度平台调度部署的推理应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。69图4-54协同推理-任务发布-混合调度步骤二:调度决策步骤二:调度决策调度中心依据算网资源状态,对推理任务集进行调度,生成推理任务的调度结果集。这一结果集综合考虑了资源的可用性、性能和成本等因素,为后续的任务实施提供了详细的指导。需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。图4-55协同推理-调度决策70步骤三:方案执行步骤三:方案执行协同调度将调度结果集交由任务调度、流量调度实施。标准化镜像及模型通常托管于算网协同调度平台的存储资源池中。在此模式下,数据迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度借助网络控制器,为模型文件准备和镜像文件迁移准备稳定的网络通道,优化网络资源配置,确保模型文件和镜像文件在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。图4-56协同推理-方案执行-平台托管-流量调度镜像和模型预热协同调度根据推理任务调度结果集发起镜像和模型文件预热过程,数据调度在调度中心和目的数据中心间发起数据迁移操作,将镜像和模型文件预热到目的数据中心,减少冷启动时间。71图4-57协同推理-方案执行-平台托管-镜像和模型预热网络资源释放在任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-58协同推理-方案执行-平台托管-资源释放 私有定制化镜像及模型的原始存储位置往往位于用户本地数72据中心,其迁移过程需要综合考虑数据主权、传输安全等多重因素,那么镜像及模型会从用户的数据中心迁移到目的数据中心。准备迁移通道流量调度通过网络控制器为数据集及模型迁移准备网络通道,保障数据传输的高效性。图4-59协同推理-方案执行-本地托管-准备迁移通道镜像及模型预热协同调度根据推理任务调度结果集发起镜像和模型文件预热过程,数据调度在用户本地数据中心和目的数据中心间发起数据迁移操作,将镜像和模型文件预热到目的数据中心,减少冷启动时间。73图4-60协同推理-方案执行-本地托管-镜像及模型预热网络资源释放在数集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-61协同推理-方案执行-本地托管-网络资源释放 标准化镜像及模型可能托管与公有云的存储资源池中。在此模式下,数据迁移操作在公有云与目标数据中心之间执行。准备迁移通道流量调度通过网络控制器为镜像及模型迁移准备网络通道,保障数据传输的高效性。74图4-62协同推理-方案执行-公有云托管-准备迁移通道镜像及模型预热协同调度根据推理任务调度结果集发起镜像和模型文件预热过程,数据调度在公有云和目的数据中心间发起数据迁移操作,将镜像和模型文件预热到目的数据中心,减少冷启动时间。图4-63协同推理-方案执行-公有云托管-镜像及模型预热网络资源释放在数集迁移任务完成后,系统立即执行网络通道资源释放流程,75确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-64协同推理-方案执行-公有云托管-资源释放步骤四:无服务器化的推理服务步骤四:无服务器化的推理服务弹性资源调整:推理任务实例根据使用情况弹性扩缩。系统实时监测资源使用情况,当负载增加时自动扩展资源,当负载降低时释放资源,实现资源的动态优化,降低运营成本。用户访问用户通过终端设备产生对推理应用的访问需求。该访问请求首先抵达流量网关,流量网关作为网络流量的关键枢纽,对用户请求进行解析、验证并触发系统内访问请求事件。76图4-65协同推理-推理服务-用户访问服务触发当用户首次针对推理服务发起访问请求时,该请求将遵循既定的系统路由策略,被路由至系统中一个具体的推理服务,经过预热的推理服务提前加载了数据与环境参数,能立即被拉起,这一过程涉及资源的快速分配与初始化,包括但不限于内存资源的申请、计算资源的调度以及相关服务组件的加载,在完成启动流程后,执行推理任务、输出结果,满足用户实时需求,保障推理服务高效稳定。77图4-66协同推理-推理服务-服务触发流量调度在确定性广域网内,依托网络控制器所提供的智能化管控能力,系统将为用户访问推理服务针对网络时延、抖动以及带宽等关键性能指标构建并维护稳定的网络通道。图4-67协同推理-推理服务-流量调度负载分担在全局负载均衡技术体系下,用户对推理任务的访问趋于均衡。系统实时监测各推理服务的负载与网络状态,依据GPU、显存使用率、CPU、内存占用率、QPS等负载指标,以及网络延迟、丢包率等网络参数,运用智能算法动态分配用户请求,将其导向负载轻且网络佳的节点,确保系统高效运行与用户体验一致。78图4-68协同推理-推理服务-负载分担访问释放当终端用户结束对推理服务的访问,流量网关作为网络流量管控关键节点会触发系统资源释放流程,系统启动自动化回收程序,按序依次释放资源,解除链路带宽分配,供后续用户使用。通过这系列自动化操作,系统高效完成网络通道资源释放,保障资源合理利用与系统高效运行。图4-69协同推理-推理服务-访问释放79服务释放在系统运行过程中,资源的合理调配对于优化整体性能与降低成本至关重要。当进入低峰时段,如深夜期间,经系统监测判定推理服务处于完全空闲状态,长时间未接收到任何推理任务请求时,系统将依据预先设定的资源释放策略,释放全部推理服务实例,以达成资源的高效回收与再利用。图4-70协同推理-推理服务-服务释放4.6西训东推场景西训东推场景4.6.1场景描述场景描述在AI领域,训练和推理具有不同的特性。AI训练过程需要强大的计算能力,对硬件资源要求较高,但与外部的交互相对较少;而AI推理则侧重于快速响应用户请求,具有强交互的特点,但计算量相对较小。目前,训练和推理通常部署在相同集群甚至通过一体机方式进行部署,这种方式无法充分发挥不同区域的优势,造成资源配置80不合理和成本浪费。面向“东数西算”战略,将训练任务分发到算力质优价廉的西部,利用西部丰富的算力资源和较低的成本优势,提高训练效率,降低训练成本;将推理任务分发到终端用户密集的东部,减少数据传输延迟,将提高用户体验,实现区域间的协同发展,提升整体的资源利用效率和经济效益。4.6.2目标效果目标效果解耦优化效能在AI应用体系中,训练与推理通过模型紧密相连,训练时,借助大量标注数据与优化算法调校模型参数,使模型掌握数据特征模式,训练完成生成特定参数模型后,推理阶段将新数据输入该模型,依据已学习模式分析、预测并输出结果,模型是二者间的核心纽带;解耦AI训练与推理极为重要,一方面,二者可独立优化,训练能随新算法、数据升级,推理不受影响,保持稳定以适配不同业务场景;另一方面,资源分配更合理,训练用高算力处理大量数据,推理专注实时响应,避免资源冲突;另外,模型读取速度对推理效率影响显著,训练产生的模型文件将会复制于推理应用所在智算中心存储系统,确保推理能快速加载模型,实现高效推理。训练资源优化支持将训练任务调度到满足其GPU需求同时价格最低的西部智算中心,实现训练资源的最优配置,降低企业的训练成本,提高资源81利用效率。推理就近访问推理服务能够负载分担地实现东部用户的就近访问,减少网络延迟,提高用户体验,增强产品的竞争力。模型管理与分发系统通过统一存储系统对模型文件进行统一管理,并借助高带宽的确定性广域网,综合考量推理应用位置、网络及负载等因素,实现高效快捷地模型分发。镜像和模型高效传输镜像和模型从源数据中心到目的数据中心的高效传输,确保了训练/推理任务能够快速获取所需的镜像和模型,缩短训练/推理准备时间,提高训练/推理效率。4.6.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布训练任务和推理任务,详细指定各项需求。对于训练任务,可以指定优先使用西部资源,明确计算需求(CPU、GPU,框架,价格),指定内部网络需求(IB、RDMA),并要求对训练任务镜像进行存储预热;对于推理任务指明确计算需求(CPU、GPU,框架,价格),指定地域需求,任务类型为Serverless,要求对推理任务镜像进行存储预热,指定所需的存储类型和存储介质。这些详细的参数设置,为调度中心提供了准确的任务信息,便于进行82合理的资源调度。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-80西训东推-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的推理/训练应用和算网协同调度平台调度部署的推理/训练应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的推理应用副本和算网协同调度平台调度部署的推理应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理/训练应用信息如等。83图4-81西训东推-任务发布-混合调度步骤二:调度规划步骤二:调度规划调度中心依据算网资源状态,对推理任务和训练任务集进行协同调度,生成推理任务调度结果集和训练任务调度结果集。调度过程综合考虑了资源的分布、性能、成本以及任务的需求等因素,确保资源的最优分配,需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。84图4-82西训东推-调度规划步骤三:数据集和模型准备步骤三:数据集和模型准备协同调度根据训练任务调度结果集和推理任务调度结果集发起存预热过程,生成相应的流量调度结果集和存储调度操作集,并交由流量调度和数据调度执行。私有定制化数据集及模型的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全等多重因素,那么数据集及模型会从用户的数据中心迁移到目的数据中心。准备迁移通道流量调度通过网络控制器为数据集及模型迁移准备网络通道,保障数据传输的高效性。85图4-83西训东推-数据集和模型准备-本地保存-准备迁移通道数据集及模型迁移数据调度在用户数据中心和目的数据中心间发起数据集及模型迁移操作,为后续的任务执行做好准备。图4-84西训东推-数据集和模型准备-本地保存-数据集模型迁移网络资源释放86在数集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-85西训东推-数据集和模型准备-本地保存-网络资源释放 标准化公开数据集及模型通常托管于算网协同调度平台的存储资源池中。在此模式下,数据迁移操作在算网协同调度平台与目标数据中心之间执行。准备通道流量调度通过网络控制器为迁移准备网络通道,保障数据传输的高效性。87图4-86西训东推-数据集和模型准备-平台托管-准备通道数据集和模型迁移数据调度在调度中心和目的数据中心间发起数据集及模型迁移操作,为后续的任务执行做好准备。图4-87西训东推-数据集和模型准备-平台托管-数据集模型迁移网络资源释放在数集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或88二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-88西训东推-数据集和模型准备-平台托管-网络资源释放 标准化公开数据集及模型可能托管与公有云的存储资源池中。在此模式下,数据迁移操作在公有云与目标数据中心之间执行。准备迁移通道流量调度通过网络控制器为数据集及模型迁移准备网络通道,保障数据传输的高效性。图4-89西训东推-数据集和模型准备-公有云托管-准备迁移通道89数据集及模型迁移数据调度在公有云和目的数据中心间发起数据集及模型迁移操作,为后续的任务执行做好准备。图4-90西训东推-数据集模型准备-公有云托管-数据集模型迁移网络资源释放在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。90图4-91西训东推-数据集模型准备-公有云托管-网络资源释放步骤四:任务部署步骤四:任务部署协同调度根据推理任务调度结果集和推理任务调度结果集发起任务部署过程,任务调度分别部署训练任务和推理任务,确保任务在选定的资源上快速启动和运行。标准化训练和推理镜像通常托管于算网协同调度平台的存储资源池中。在此模式下,镜像迁移操作在算网协同调度平台与目标数据中心之间执行。准备应用镜像预热通道流量调度通过网络控制器为镜像迁移准备网络通道,保障数据传输的高效性。图4-92西训东推-任务部署-平台托管-准备通道镜像预热数据调度在调度中心与目的数据中心间启动迁移流程,按既定策91略,运用高效传输协议,保障数据在不同数据中心间可靠传输。为提升推理、训练任务在西部目的数据中心的执行效率,数据调度对两类任务开展镜像预热,在触发时能迅速响应,减少启动延迟,保障执行高效、连续。图4-93西训东推-任务部署-平台托管-镜像预热网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。92图4-94西训东推-任务部署-平台托管-资源释放 私有定制的训练镜像的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全以及业务连续性等多重因素,那么镜像会从用户的数据中心迁移到目的数据中心。准备应用镜像预热通道流量调度通过网络控制器为镜像迁移准备网络通道,保障数据传输的高效性。图4-95西训东推-任务部署-本地保存-准备通道93镜像预热数据调度在用户数据中心与西部目的数据中心间启动迁移流程,按既定策略,运用高效传输协议,保障数据在不同数据中心间可靠传输。为提升推理、训练任务在西部目的数据中心的执行效率,数据调度对两类任务开展镜像预热,在触发时能迅速响应,减少启动延迟,保障执行高效、连续。图4-96西训东推-任务部署-本地保存-镜像预热网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。94图4-97西训东推-任务部署-本地保存-资源释放 标准化训练和推理镜像可以托管于公有云的存储资源池中。在此模式下,镜像迁移操作在公有云与目标数据中心之间执行。准备应用镜像预热通道流量调度通过网络控制器为镜像迁移准备网络通道,保障数据传输的高效性。图4-98西训东推-任务部署-公有云托管-准备通道镜像预热95数据调度在调度中心与目的数据中心间启动迁移流程,按既定策略,运用高效传输协议,保障数据在不同数据中心间可靠传输。为提升推理、训练任务在西部目的数据中心的执行效率,数据调度对两类任务开展镜像预热,在触发时能迅速响应,减少启动延迟,保障执行高效、连续。图4-99西训东推-任务部署-公有云托管-镜像预热网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。96图4-100西训东推-任务部署-公有云托管-资源释放步骤五:部署训练任务和推理任务步骤五:部署训练任务和推理任务系统将即刻完成训练任务的部署,并启动运行流程。针对推理服务,其并非在系统启动后即刻投入运行,而是基于事件驱动机制,仅在接收到用户访问请求时,才实时触发并激活相应服务,以此实现推理服务资源的精准调用与高效利用。97图4-101西训东推-部署训练任务和推理任务步骤六:训练任务运行步骤六:训练任务运行训练任务以数据集为输入,借助强大算力,运用深度学习、机器学习等算法挖掘数据特征。训练中模型持续迭代,调整参数优化拟合效果。当准确率、均方误差等性能指标达预设标准,训练结束,生成模型文件。该文件存储模型参数、结构等关键信息,为后续推理、分析提供核心支撑。图4-102西训东推-训练任务运行步骤七:模型同步步骤七:模型同步 任务终止和数据清理训练任务完成后,协同调度依据既定策略发送指令,终止训练任务,释放算力资源。同时,清理训练任务使用的数据集,回收存储资源,保障系统高效运行。98图4-103西训东推-模型同步-任务终止和数据清理 模型迁移准备流量调度借助网络控制器,依数据传输需求与网络拓扑,为模型迁移构建网络通道。网络控制器实时监测网络链路,智能整合资源,精准管控流量,保障镜像迁移数据传输高效、低延迟。图4-104西训东推-模型同步-模型迁移准备 模型迁移数据调度在训练所在数据中心和算网协同调度平台间发起模型99迁移操作,为后续的模型分发做好准备。图4-105西训东推-模型同步-模型迁移 资源清理模型迁移完成后,流量调度模块立即释放相关网络通道。将网络资源归还系统资源池。同时,存储调度模块删除源模型文件,为新数据存储准备好空间。图4-106西训东推-模型同步-资源清理 组播模型文件分发:100推理应用的网关发起IGMP消息到BFER(Bit-Forwarding EgressRouter)PE,请求加入模型文件所在的组播组。BFER PE接收IGMP请求后,将其作为组播接收者注册到BIER控制平面(如BGP EVPN)。BFER PE向BIER控制平面注册组播接收者信息(组播组 接收者),由BFIR(Bit-Forwarding Ingress Router)构建相应BIFT条目。调度平台网关向组播组发送模型文件。BFIR PE收到模型文件报文,构造BIER Header,将模型文件报文发送给多个推理应用相关的BFER PE。BFER PE将组播模型文件报文发送给推理应用所在网关。网关将模型文件推送给推理应用。推理应用启动,其加载模型文件,将关键信息读入内存构建推理环境,并依据模型特性调配系统资源,接收用户请求,调用模型运算,以规范格式反馈结果,提供推理服务。101图4-107西训东推-模型同步-组播模型文件分发步骤八:就近访问步骤八:就近访问流量调度系统对优化用户终端访问推理服务体验起着关键作用,当用户终端发起访问推理服务请求,流量调度系统迅速响应。通过IP地址解析、基站定位等技术,准确定位用户终端位置,同时综合评估推理服务的分布式部署,掌握各节点实时负载、处理能力及与终端的网络距离。基于这些信息,运用最短路径、加权路径等算法,筛选出最优路径,让用户终端能就近访问推理服务,缩短传输距离,降低网络延迟与丢包率。图4-108西训东推-就近访问步骤九:服务释放步骤九:服务释放在系统运行过程中,资源的合理调配对于优化整体性能与降低成本至关重要。当进入低峰时段,如深夜期间,经系统监测判定推理服务处于完全空闲状态,长时间未接收到任何推理任务请求时,系统将依据预先设定的资源释放策略,释放全部推理服务实例,以达成资源102的高效回收与再利用。图4-109西训东推-服务释放五、生态模式五、生态模式5.1边云一体模式边云一体模式用户作为算网资源的需求方,具备多元化的资源获取渠道。当前,为了确保数据的安全性以及业务处理的高效及时性,许多企业选择在本地部署私有云或一体机,将其作为基础的算力支撑。这一举措在一定程度内满足了企业对于数据安全管控和业务即时处理的需求。然而,在企业业务快速发展的大背景下,数据量与计算任务正以指数级速度增长,特别是对于一些AI推理应用等具体业务而言,其对资源的访问需求呈现出多样化、高并发以及高负载的特点。在此情况下,本地私有云或一体机的扩展性弱点便逐渐凸显出来。由于其资103源容量的局限性,难以灵活、快速地根据业务增长和推理应用等具体业务的弹性扩缩需求进行扩展,无法及时、有效地满足企业不断攀升变化的业务需求。算网协同调度平台依托确定性广域网技术构建起广域的全局算网资源池。当本地私有云/一体机资源告急时,用户只需通过算网协同调度平台提交资源需求任务,平台便会依据实时资源状态与任务的多维度需求,在全局范围内智能筛选、调配合适的算网资源,通过协同调度及时开通算网资源,部署用户的应用,精准满足企业在数据处理、业务分析、人工智能推理等多场景下的复杂需求,有效突破本地资源瓶颈,助力企业业务的高效、稳定运行。特别地,对于应用的使用者而言,在访问和使用本地部署的应用与访问和使用通过算网协同调度平台部署的应用之间的使用体验是连贯和一致的。简要过程如下:图5-1边云一体 企业内部用户向企业内私有云/一体机提交应用算力需求。应用在私有云/一体机上调度部署。104 如访问量增加等原因导致私有云/一体机上部署的应用需要扩容,私有云/一体机由于资源所限不能满足。企业私有云/一体机管理系统以算网调度平台资源需求方身份向平台发起算网资源需求,包括可能的:私有部署应用信息,计算需求,存储需求,网络需求等。算网调度平台调度全局资源,满足企业私有云/一体机管理系统的需求。应用的使用者以一致而连贯的方式访问私有部署的应用和在全局资源部署的应用。5.2云算分离模式云算分离模式云供应商作为算网资源的主要供应方,承载着满足用户多元需求的重任。在实际业务场景中,云供应商虽具备一定规模的资源储备,但常因各类因素难以全方位契合用户诉求。例如,在地域性方面,部分用户对数据存储与处理的地理位置有严苛要求,期望数据能就近处理以降低延迟、提升响应速度,或是出于法规、安全等考量,限定资源必须部署在特定区域,而云供应商现有资源布局无法覆盖;在价格层面,随着市场竞争加剧与用户成本控制意识增强,一些用户对资源租赁价格极为敏感,云供应商既定的价格体系难以匹配用户预算;此外,在智算领域,面对人工智能、大数据分析等对算力要求极高的应用场景,用户对智算GPU资源的性能105与数量需求不断攀升,云供应商自身资源难以足额供应。此时,当云供应商遭遇上述资源匹配困境时,可将用户需求提交至算网协同调度平台。平台依托广泛的资源连接网络,资源池涵盖来自不同地域、不同价格、不同服务提供商的各类算网资源,通过对资源状态、价格、性能等多维度信息的分析筛选,调度出契合用户地域性、价格及智算GPU要求的资源组合,进而满足用户复杂且多变的需求。简要过程如下:图5-2云算分离 云提供商的用户向云提供商提交应用算力需求。云提供商自身资源由于地域性、价格等因素不能满足用户需求。云提供商以平台资源需方的身份将用户算力需求提交到算网协同调度平台,包括可能的:计算需求,存储需求,网络需求等。算网系统调度平台在广域资源池内调度满足用户需求。1065.3边缘共享模式边缘共享模式企业作为算网资源的使用者和需求方,为了确保自身业务的平稳运行与高效拓展,往往会投入大量的人力、物力和财力,搭建私有云系统(这些私有云在位置上看可以看作是边缘云)或者购置价格不菲的一体机设备。这一举措旨在全方位满足自身业务需求,私有云与一体机在初期确实发挥了显著作用。然而,企业业务的发展态势并非一成不变,而是呈现出一定的波动性特征,算力需求在不同时期起伏不定。在业务低谷期,大量的计算资源被迫处于闲置状态,这无疑造成了资源的极大浪费,使得企业前期投入的成本无法得到充分的利用与回报。例如,一些季节性企业,在非旺季时,其搭建的私有云与购置的一体机所承载的计算任务量锐减,或者是由于时区的不同,在当地时区的夜间时段,业务量可能大幅度锐减,这样大量的硬件资源只能在机房中“沉睡”。当企业出现计算能力过剩的情况时,一个行之有效的解决策略便是将这些闲置资源接入算网协同调度平台。通过这一平台,企业能够与广大的算力需求方实现高效对接,将自身闲置的算力资源进行共享。这一举措带来了诸多积极影响。一方面,企业自身的计算资源利用率得以大幅提升,原本闲置的资源重新焕发生机,为企业创造价值。另一方面,企业成功开辟了全新的经济收益渠道。通过向算力需求方合理收取使用费用,企业能够将过剩的算力转化为实实在在的货币收入,有效抵减部分前期在基础设施投资方面的巨大开支。107从更宏观的行业视角来看,算力共享有力地促进了整个行业资源的合理分配。对于那些规模较小、资金相对匮乏的小型企业,或者计算需求具有间歇性特点的企业而言,它们无需再为高额的硬件前期投入而望而却步。借助算网协同调度平台,这些企业能够以低成本获取到优质的算力资源,满足自身业务发展的阶段性需求。特别是对于边缘云而言,共享算力资源尤为重要,在供给侧,边缘云的建设通常并不是大型公有云的重点,而在需求侧,特别是AI推理应用蓬勃发展的情况下,边缘云的需求是旺盛而高速发展的,而边缘云的异属共享,是弥补需求和供给之间的结构失衡的重要而有效的方式。简要流程如下:图5-3边缘共享 企业管理者作为平台算力资源供应方将本企业的私有云/一体机注册并接入到算网协同调度平台。其他的企业或者个人作为平台的资源需方向平台提出算网需108求。算网平台根据调度算法,可以资源需方的应用调度并部署到共享的企业私有云/一体机上,完成资源共享过程。六、商业价值与前景展望六、商业价值与前景展望“东数西算”工程涵盖了总分调度、分总调度、混合调度等调度架构、东数西算、数据快递、东数西存、协同推理、协同训练和西训东推等核心场景,具备明确的商业价值和广阔的市场前景。在总分调度、分总调度和混合调度架构中,通过优化算网资源的调度和管理,提升了资源的利用率和灵活性,降低了算力提供者和使用者的运营成本。对于算力提供者而言,能够充分利用闲置资源,拓展业务收入来源;对于算力使用者来说,简化了资源获取流程,提升了业务部署效率,增强了市场竞争力。这些架构为构建一个高效、公平、开放的算力市场奠定了坚实基础。东数西算场景充分发挥了东西部地区的资源互补优势,有效降低了数据处理的电力成本,提升了数据处理效率。这不仅为东部地区的数据密集型企业减轻了运营负担,提升了企业的盈利能力和市场竞争力,还为西部地区带来了新的经济增长点,推动了西部地区的数字基础设施建设和产业升级。随着“东数西算”工程的深入推进,相关产业链上下游企业将迎来更多发展机遇,如数据中心建设、网络设备制造、数据处理服务、算力运营等领域将迎来爆发式增长,有望形成一109个规模庞大、协同发展的数字经济产业集群。数据快递场景打破了传统数据传输的瓶颈,提升数据传输效率和安全性,降低数据运输成本,为智算、超算等领域的创新发展提供有力支持,促进相关产业的快速发展。东数西存场景有效解决了企业数据存储难题,利用西部低成本存储资源,降低企业存储成本,同时提升数据存储的安全性和管理效率,释放企业数据价值。协同训练场景打破了智算中心之间的资源壁垒,提升了GPU资源的利用效率,降低了企业和科研机构的大模型训练成本,加速了人工智能技术的创新和应用落地。协同推理场景通过整合边缘算力资源,优化冷启动时间和弹性扩缩能力,提升了推理服务的质量和效率,降低了运营成本,增强了企业在AI应用市场的竞争力。西训东推场景充分发挥了东西部地区的资源优势,实现了训练和推理任务的合理分布,提升了整体资源利用效率,为AI产业的可持续发展提供了有力支撑。边云一体模式为企业带来了强大的资源整合优势与业务拓展能力。对企业而言,其商业价值首先体现在成本控制与效率提升上。企业通过本地私有云或一体机进行基础业务处理,在需求高峰借助算网协同调度平台获取广域资源,避免了大规模自建资源的高额投入,有效降低硬件采购、运维成本。同时,这种模式满足企业复杂业务场景需求,加速数据处理与分析,助力企业快速决策,提升市场响应速度,增强企业竞争力。云算分离模式则打破了云供应商资源供给的局限性,为整个云服务市场注入新活力。对于云供应商,它拓宽了业务边界,即便自身资源不足,也能借助算网协同调度平台满足用户需求,提升110客户满意度与忠诚度,增加市场份额。对于用户,能获取更贴合自身需求的资源,如满足地域性、价格、智算GPU性能等特殊要求,降低使用成本,提升服务质量。边缘共享模式开启了企业间资源共享的全新商业篇章。对于拥有闲置算力的企业,将过剩资源货币化,创造额外收入,提高资源投资回报率。对于需求方,尤其是小型企业或计算需求间歇的企业,以低成本获取优质算力,减少前期硬件投入,降低运营成本。这种模式还促进了行业资源的优化配置,提升整体行业效率。展望未来,随着“东数西算”工程的深入推进,这些场景将不断优化和拓展。技术创新将进一步提升算网资源调度效率和数据传输性能,降低成本,提升服务质量。跨区域、跨行业的合作将更加紧密,推动形成更加完善的数字经济生态系统。企业应积极拥抱这些变化,充分利用“东数西算”带来的机遇,优化自身业务布局,提升数字化竞争力,在数字经济浪潮中实现可持续发展。

    发布时间2025-08-22 118页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025基于确定性网络的智能体可信数据空间白皮书(99页).pdf

    未来网络白皮书系列基于确定性网络的智能体可信数据空间第九届未来网络发展大会组委会2025年8月 版权声明版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明 主要编写单位:主要编写单位:江苏未来网络集团有限公司、清雁科技(北京)有限公司、润泽集团河北省算力产业技术研究院、菲尼克斯电气(中国)投资有限公司、紫金山实验室、南京新一代人工智能研究院有限公司。主要编写人员:主要编写人员:叶迎春、陈刚、钱锐、华强、葛宇、邵静兴、王俊颉、张英伟、林杨、王远、张秀芳、胡华、梁恩泉、方毅然、李政隆、张萌。I 前 言(一)数字经济发展对可信数据空间的需求(一)数字经济发展对可信数据空间的需求 当前,全球已进入以数据为核心驱动力的数字经济时代。2023 年我国数字经济核心产业增加值占 GDP 比重达 10%,数据总产量达32.85 泽字节(ZB),同比增长 22.44%。然而,数据要素的价值释放仍面临严峻挑战:仅有 2.9%的数据被有效保存,企业超过一年未使用的数据占比近 40%,数据资源“沉睡化”现象突出。这一矛盾的核心在于数据要素市场化循环体系的梗阻传统数据流通模式难以平衡“安全可控”与“高效利用”的双重需求,具体表现为三大困境:1.数据流通的“信任困境”数据作为新型生产要素,其价值释放依赖跨主体、跨域的高效流通。但企业间因商业机密保护、权属界定模糊、合规风险高等顾虑,形成“不敢共享、不愿开放”的僵局。全国人大代表柳江在 2025 年全国两会中指出:“多方数据跨界融合需求明确,但大规模数据流通利用场景仍在探索”。尤其在 AI 驱动的智能体协同场景中,数据需在算法模型间高频交互,传统点对点交易模式无法满足实时性、高并发需求,亟须构建基于共识规则的可信环境。2.数据应用的“效能困境”现有数据基础设施存在“三低”短板:互通效率低:政务、金融、工业三大重点领域数据空间占比超 52.5%,但平台间因技术标准不统一难以互联互通;II 场景适配低:实体企业数字化转型进入“数据流通赋能”第三阶段,但医疗、能源等行业因数据格式异构、协议差异导致协同效率低下;价值转化率低:据调研,数据流动量每增加 10%可带动 GDP增长 0.2%,但对各行业利润的平均促进率仅 10%左右,需通过可信机制提升数据要素的乘数效应。3.数据安全的“合规困境”数据跨境流动、隐私泄漏风险加剧监管复杂性。例如,欧盟通过GAIA-X 计划构建行业数据空间核心平台,美国科技企业推出数据空间沙盒环境,均以技术主权争夺为导向。我国虽出台中华人民共和国数据安全法中华人民共和国个人信息保护法,但在执行层面仍面临两难:技术层面:隐私计算、区块链等核心技术的自主可控性不足,数据脱敏与可用性难以兼顾(如医疗数据共享需动态脱敏但可能失真);机制层面:数据权属划分、收益分配规则缺失,导致企业间协作动力不足 4.可信数据空间:破解困局的中国方案 为应对上述挑战,可信数据空间(Trusted Data Space,TDS)应运而生。其本质是以共识规则为基石、技术赋能为支撑、生态协同为目标的下一代数据基础设施,核心价值在于:构建信任基座:通过区块链存证、智能合约、数字身份认证 III 实现数据“权属清晰、用权可控、维权可溯”,降低流通信任成本;激活要素效能:依托确定性网络技术(如 SRv6 可编程路由、意图驱动网络)绑定 SLA 服务质量,确保工业质检等场景端到端时延10ms、算力可用性99.9%,支撑实时决策;驱动生态革新:分企业、行业、城市、个人、跨境五类场景推进,如长虹供应链金融平台整合应付账款数据赋能中小微企业信用增值,济南财金集团通过城市数据空间实现全流程风控。国家数据局可信数据空间发展行动计划(20242028 年)明确提出:到 2028 年建成 100 个以上可信数据空间,培育数据产业集群,激活万亿级市场潜能。这一战略部署标志着我国数据要素市场化改革从“概念验证”迈入“规模落地”新阶段,为智能体协同、产业数字化转型提供关键基础设施支撑。(二)确定性网络与智能体技术的融合价值(二)确定性网络与智能体技术的融合价值 在数字经济迈向纵深发展的关键阶段,确定性网络与智能体技术的深度融合,正成为破解数据要素流通“效能安全信任”三角难题的核心引擎。这一融合不仅重构了数据价值的释放路径,更推动了从“数据互联”到“智能协同”的范式跃迁,其价值主要体现在三大维度:1.技术协同:构建智能体实时决策的“神经中枢”智能体的核心能力在于感知环境、规划任务并自主执行,其决策 IV 效率高度依赖数据的实时性与可靠性。传统“尽力而为”网络难以满足毫秒级响应的工业控制、金融交易等场景需求,而确定性网络通过时延上限保障(端到端10ms)、微秒级抖动控制(5s)及超高可靠性(丢包率0.001%)三大核心特性,为智能体提供了可量化、可验证的底层支撑:强确定性保障:在工业质检场景中,基于 TSN(时间敏感网络)的确定性调度机制,将机械臂控制指令的端到端时延压缩至 1ms 内,使智能体响应速度提升 20 倍,误操作率趋近于零;资源动态适配:通过意图驱动网络(IDN)技术,智能体可基于任务需求(如大模型训练需高带宽、自动驾驶需低时延)自动生成网络切片策略,实现“任务资源质量”的强一致性匹配;算网一体调度:光电融合确定性网络支持 2000 公里无电中继无损传输,使分布式的“东数西算”资源池化为智能体提供“一跳入算、一键调算”的全局算力供给,算力利用率提升40%以上。2.应用赋能:激活垂直行业的“智能生产力”融合技术正从实验室走向产业核心场景,重构生产流程与商业模式:工业制造:海上油田钻井平台 PLC 控制智能体通过确定性网络绑定云化 PLC SLA,PLC 升级效率提升 20 倍,大大减少 V 现场施工作业人数,实现无人化 PLC 远程升级维护;金融科技:基于可信数据空间的跨机构风控智能体,依托 TEE(可信执行环境)与确定性切片技术,在保障原始数据“可用不可见”的前提下,实现征信查询时延15ms,欺诈识别效率提升 35%;城市治理:铁路 IP 通信网采用 K 级物理切片技术,在列车定位、调度、监控多业务融合承载中,将发车间隔缩短至 2分钟,定位精度控制在 15 米内,客运效率提升 50%;医疗健康:远程手术智能体依赖确定性网络实现 4K 影像传输与机械臂控制的同步,端到端时延5ms,为跨地域精准医疗提供技术基座。3.生态重构:奠定可信数据空间的“规则底座”融合技术通过“技术标准化 权属契约化”双路径,构建数据要素市场化流通的信任基石:SLA 驱动的可信契约:在清雁科技“可信智能体空间”中,智能体操作权限与数据使用权通过智能合约确权,并绑定确定性网络 SLA 参数(如时延、带宽、可靠性),任何违例行为自动触发链上清算与惩罚机制,实现“权责可追溯、违约可仲裁”;跨域协同的信任传递:依托 MCP(模型上下文协议),异构智能体可在统一框架下调用不同平台的数据与工具,而确定性网络为跨域交互提供时延与丢包率承诺,确保协同任务(如 VI 供应链多智能体联合排产)的确定性执行;价值闭环的经济模型:智能体通过加工数据生成新知识(如优化算法、决策模型),经算力验证后反馈至数据空间,形成“数据增值算力消耗智能体进化”的闭环生态,并通过分布式清算体系实现微服务交易的实时结算。4.迈向“确定性智能”的新范式 确定性网络与智能体技术的融合,标志着数据基础设施从“连通能力”向“数智能力”的质变:短期(20252026),聚焦工业互联网、智慧金融等高价值场景,以 SLA 绑定机制实现 95%以上的任务确定性保障;中期(20272028),构建空间互联的算力调度网,支撑智能体“一点接入、全局协同”的泛在化应用;长期(2028 ),形成与数字生产力匹配的算网生产关系,为星地协同、元宇宙等泛在场景提供“零信任 强确定”的双重保障。(三)白皮书目标与核心愿景(三)白皮书目标与核心愿景 本白皮书以确定性网络技术为核心引擎,以智能体可信数据空间为载体,旨在构建支撑国家数字竞争力与驱动产业质效跃升的战略性基础设施。其核心目标体系围绕三大维度展开:1、在支撑国家战略层面 白皮书聚焦破解“东数西算”工程中跨域算力协同的确定性瓶颈。传统广域网络因时延抖动与丢包问题,导致 2000 公里级算力传输带 VII 宽利用率不足 20%,严重制约多模态大模型训练、科学装置数据的实时处理效率。确定性网络通过微秒级抖动控制与零丢包保障,将跨域无损传输效率提升至 88%,为 FA 射电望远镜(日数据量 2000TB)、散裂中子源(日数据量 600TB)等大科学装置提供协同分析基础。同时,通过自主研发广域确定性大网操作系统(CNOS)及异厂商设备互联互通技术(如华为与新华三异构组网),推动中国主导的 DetNet、FlexE 标准成为全球广域网核心规范,奠定技术主权与标准话语权。2、在推动产业升级层面 白皮书重点赋能三大高价值场景:工业制造领域:依托确定性内网(TSN:时间敏感网络) 确定性外网技术实现机械臂控制指令端到端时延1ms,误操作率趋近于零,使汽车生产线良品率提升 15%、设备协同效率提高 20%。医疗健康领域:确定性网络支撑跨域手术机器人精准操控,端到端时延压缩至 56ms,时延抖动20s,使青岛大学附属医院远程肾脏切除手术成功率与现场操作持平,推动优质医疗资源全域共享。智慧交通领域:基于K级物理切片技术承载车路协同数据流,实现车辆定位精度 15 米、发车间隔缩至 2 分钟,综合提升路网通行效率 16%,事故率下降 25%。3、在技术架构层面,白皮书提出“三层融合”体系:资源层 VIII 整合 FlexE 硬切片(100G400GE)、5G 确定性网络(99.9999%可靠性)、TSN 微秒级整形等关键技术,打通“有线 无线”“局域 广域”的多维保障通道;控制层 构建意图驱动网络(IDN)操作系统,将业务语义(如“AI 训练需高带宽”“远程控制需低时延”)自动转化为网络切片策略,资源匹配效率提升 40%;应用层 开放智能体即服务(AaaS)接口,通过联邦学习、TEE 可信执行环境实现数据“可用不可见”,激活跨域协同价值。1 4、面向未来,白皮书规划三阶段愿景蓝图:近期(20252026):建成 10 个区域级智能体可信数据空间枢纽,在高端制造、远程医疗领域实现 95%的任务与确定性网络 SLA 绑定,拉动产业规模超千亿;中期(20272028):基于确定性网络技术,形成高速数据网互联的可信数据空间,并实现算网协同调度,高速数据网覆盖 80%核心产业集群,支撑智能体“端-边-云”全局协同,数据流通效率提升 50%;远期(2028 ):构建与数字文明匹配的算、网、智生产关系,赋能星地协同、元宇宙等泛在智能场景,最终实现“数据要素零壁垒、智能协作无时滞”的数字中国终极目标。X 目 录 前 言.I 目 录.X 一、基于确定性网络的智能体可信数据空间概述.1 1.1 概念定义.1 1.2 核心挑战.4 1.3 确定性网络的赋能作用.5 1.4 国内外趋势与实践.8 二、技术基石(一):确定性网络体系.11 2.1 概念定义.11 2.2 关键能力指标.17 2.3 标准化进展.21 三、技术基石(二):智能体可信数据空间体系.23 3.1 概念定义.23 3.2 关键能力指标.24 3.3 标准化进展.25 四、基于确定性网络的智能体可信数据空间架构设计.26 4.1 系统框架.26 4.2 核心机制.28 4.3 数网协同模型.31 五、典型应用场景与需求.34 XI 5.1 智能制造可信协同.34 5.2 能源电力数据互联.37 5.3 公共数据可信交互.41 5.4 智慧城市智能体交互.43 5.5 车联网可信生态.46 5.6 元宇宙在线教育.50 六、关键技术实现路径.52 6.1 确定性网络部署.52 6.2 算力协同部署.54 6.3 数据空间可信引擎.56 6.4 智能体协同协议.57 七、产业实践案例.59 7.1“江宁政企通 2.0”.59 7.2 菲尼克斯云化 PLC 智能体.62 7.3 杭州市“城市大脑”公共数据智能体应用项目.65 八、发展建议与展望.66 8.1 产业生态构建.66 8.2 标准体系推进.68 8.3 未来方向.69 附录 A:术语与缩略语.70 1 一、基于确定性网络的智能体可信数据空间概述一、基于确定性网络的智能体可信数据空间概述 1.1 概念定义概念定义 1.1.1 智能体可信数据空间的内涵与特征智能体可信数据空间的内涵与特征 智能体是指能够感知环境并采取行动以实现特定目标的代理体。它可以是软件、硬件或一个系统,具备自主性、适应性和交互能力。本白皮书中指的智能体是在可信数据空间中的应用。智能体可信数据空间是一个逻辑空间,它以智能体为核心,围绕智能体相关的数据、智能体本身以及智能体运行所需的算力资源进行组织和管理。其内涵包括以下几个方面:一是数据的安全存储与可信共享,确保数据在智能体之间的流通不会泄露或被篡改;二是对智能体的严格管控,防止恶意智能体进入数据空间造成破坏;三是智能体之间高效协同的机制,促进不同智能体之间无缝协作。1.1.2 智能体流通利用的核心技术、特点、特征智能体流通利用的核心技术、特点、特征 其特征主要体现在三个维度:安全维度,通过加密技术、身份认证和访问控制等手段构建全方位安全防护体系;可控维度,实现对智能体行为的精准管控以及数据流通的有序调度;协同维度,设计智能体之间的交互协议和协同工作模式,打破智能体之间的沟通壁垒。2 1.1.3 智能体可信数据空间与传统数据空间体系的差异智能体可信数据空间与传统数据空间体系的差异 与传统数据空间体系相比,智能体可信数据空间有显著差异。传统数据空间更多关注数据的存储和静态管理,而智能体可信数据空间聚焦于智能体全生命周期动态管理,涵盖智能体的创建、运行、交互和消亡等各个环节。例如在工业自动化场景中,传统数据空间只是存储生产流程数据,智能体可信数据空间则会将参与生产的智能机器人、自动化控制系统等智能体纳入管理,实时监控智能体运行状态,动态调整智能体工作参数,优化生产流程。1.1.4 基于确定性网络技术的智能体可信数据空间准确定义基于确定性网络技术的智能体可信数据空间准确定义 基于确定性网络技术的智能体可信数据空间,是一种以确定性网络为基础设施支撑,以智能体为核心流通载体,融合算网协同调度、区块链、隐私计算等技术的新型数据基础设施。它通过构建“技术规则生态”三位一体的可信体系,实现智能体全生命周期管理与跨行业、跨域协同价值释放,是数字经济时代打通“数据算力网络智能应用”的闭环的关键载体。从技术架构看,其核心特征体现为“三基融合”:以确定性网络提供端到端时延10ms、抖动5s、丢包率0.001%的基础设施能力基座,确保智能体实时交互的确定性;以区块链存证与智能合约构建信任基石,实现智能体身份认证、数据权属界定、操作行为溯源的全流程可信;以多级算力协同(如“东数西算”场景中“1-5-20”算力 3 网协同调度)支撑智能体动态算力需求,形成“数据跟着任务调度走、网络随着数据传输开”的资源适配机制。从功能目标看,基于确定性网络技术的智能体可信数据空间聚焦三大核心价值:一是破解智能体跨域协同的信任壁垒,通过数字身份统一认证、数据“可用不可见”(如联邦学习、TEE 可信执行环境)等机制,打破“数据孤岛”与“协作壁垒”;二是提升数据要素流通效能,依托确定性网络 SLA 绑定(如工业场景算力可用性99.9%)与动态切片技术,实现医疗、工业等垂直领域的高并发、低延迟数据交互;三是构建可持续生态,通过智能合约自动执行收益分配、分布式清算体系实时结算,形成“数据增值算力消耗智能体进化”的价值闭环。与传统数据空间相比,其创新性在于:将网络确定性从“尽力而为”升级为“可量化承诺”,使智能体实时决策具备技术保障;将管理对象从“静态数据”拓展至“动态智能体”,实现从数据存储向全流程协同的范式跃迁;将安全机制从“被动防护”进化为“内生可信”,通过技术手段与规则体系的深度融合,平衡数据安全与高效利用的双重需求。4 1.2 核心挑战核心挑战 1.2.1 智能体跨域流通的信任壁垒智能体跨域流通的信任壁垒 智能体跨域流通的信任壁垒主要体现在身份认证、数据可信交换和智能体行为规范等方面。在身份认证环节,不同域采用的认证技术标准各异,如生物特征识别、数字证书等,导致智能体跨域时身份难以快速准确核验。在数据可信交换上,跨域数据格式不统一、数据语义不一致,使得智能体难以准确理解来自其他域的数据,影响数据流通的可靠性。1.2.2 智能体实时交互业务的确定性需求智能体实时交互业务的确定性需求 智能体实时交互业务在时延、抖动和带宽保障层面呈现显著约束。时延方面,跨域场景下的实时响应要求端到端时延控制在毫秒级阈值内。例如工业控制智能体的指令交互,若时延超过 50ms 可能引发设备协同失误,而自动驾驶领域的紧急避障交互更需将时延压缩至10ms 以内,否则会导致决策滞后风险。抖动控制同样关键,不同域网络环境的动态波动会引发时延抖动,当抖动幅度超过平均时延的 20%时,智能体的动作协同将出现相位偏移,如远程手术机器人的操作精度会因抖动超出 0.5ms 而显著下降。带宽保障需满足双向动态适配,既要支撑高清环境数据的实时传输,又要在多智能体并发交互时保障带宽分配的确定性,避免因带宽争抢导致关键指令丢包率超过 0.1%的临界值。5 1.2.3 异构算力系统兼容性问题异构算力系统兼容性问题 智能体业务依赖底层算力,而目前各个算力中心存在算力异构的问题,主要体现在架构适配、指令集互通和资源调度协同等方面。在架构适配环节,不同算力系统采用的底层架构存在差异,如 CP 的 x86 架构与 ARM 架构、GPU 的 CUDA 架构与 OpenCL 架构,导致跨系统部署的程序难以高效运行。在指令集互通上,各类算力单元的指令集标准不统一,如专用 ASIC 芯片的定制化指令与通用处理器指令无法直接兼容,使得数据处理流程出现中断。而在资源调度层面,不同系统的调度算法和接口协议存在差异,导致多算力协同时出现资源分配冲突,影响整体计算效率。1.3 确定性网络的赋能作用确定性网络的赋能作用 1.3.1 未来网络相关算网基础情况未来网络相关算网基础情况(1)网络设施情况)网络设施情况 CENI 作为我国在通信与信息工程领域的唯一的国家重大科技基础设施,其建设将覆盖包括国内 40 个主要城市,包含 88 个主干网络节点、133 个边缘网络试验节点,以及 4 大云数据中心,目标为建设成一个先进的、开放的、灵活的、可持续发展的大规模通用试验设施,满足“十三五”和“十四五”期间国家关于下一代互联网、网络空间安全、天地一体化网络等重大科技项目的试验验证需求,获得超前于产业 510 年的创新成果。CENI 的建设对于我国未来网络领域具有 6 重大意义,从学术界角度,可提供一个大规模虚拟化网络环境,作为高校、研究院所科研人员的网络技术创新验证平台,显著增强创新成果的国际认可度;从产业界角度,可为运营商的新型网络服务部署、设备商新设备的大规模测试、互联网公司的新型网络业务提供测试平台和应用基础环境。CENI 的整体架构分为主干网、边缘网,以及云数据中心。CENI的光传输网络已建成 80 波、单波 100G 传输系统,且可以通过更换电层板卡平滑升级到 400G 系统。CENI 数通网络包括 SDN、可编程路由器、确定性三个平面,三平面的架构能够为业务提供高冗余、高可靠的保障。CENI 可以根据业务的不同需求,进行定制化的路由规划和网络优化,提供从 3 个 9 到 5 个 9 不同等级的业务可用率保障。CENI 主干网连接了全国 40 个主要城市。CENI 中的各个域的网络,都将通过网络操作系统 CNOS(China Network Operating System)进行集中式的管理,以及跨域的协同编排与调度。在此基础上,CENI 试验服务平台与管理系统将作为 CNOS 的关键应用,向试验用户提供自助式的一站式试验服务,可为 L0-L7 层的全层次、多场景的网络与网络安全的创新技术与应用,提供先进、开放、灵活、高速、可靠的试验环境。(2)基于)基于 CENI 的全国多元异构算力直连网的全国多元异构算力直连网 2023 年 7 月,未来网络集团启动基于 CENI 的全国多元异构算力直连网项目建设。按照“以网补芯”策略,该项目以 CENI 网络为大动脉,连接全国八大算力枢纽节点,形成建设技术上国际领先、安 7 全上自主可控、产业上协同创新的高速算力直连网,力图破解数据中心异构、异属、异域带来的协同难题,提供超大算力、超大带宽、低时延、低抖动、按需定制、分钟开通的个性化算网服务。同时构建算网调度中心协同东西部算力、网络调度,统筹应用、任务的跨区域分发,支撑数据、内容的高可靠流动,在全国范围内有序疏导智能应用“西训东推”、温冷数据“东数西存”,满足工业互联网、远程医疗、虚拟现实/增强现实、车联网等一线/近一线、高频/实时交互型的业务需求,加速集聚算力产业上、中、下游不同环节产业集群,为区域经济高质量发展提供新质生产力。1.3.2 提供“可信可靠、高速互联、泛在连接、高度弹性、灵活计费”提供“可信可靠、高速互联、泛在连接、高度弹性、灵活计费”的数据传输基座的数据传输基座 未来网络开发的数据传输基座以“可信可靠”为核心基石,采用加密技术与多节点备份机制,确保数据在传输全链路中不泄露、不丢失,为金融交易、医疗档案等敏感信息提供坚实安全屏障。“高速互联”是核心优势,依托全光网络架构与智能路由算法,实现跨区域数据传输延迟低至毫秒级,大文件传输效率提升 300%,满足实时交互场景需求。“泛在连接”特性打破设备与场景壁垒,支持物联网终端、云端服务器、边缘节点等多类型设备无缝接入,构建全域覆盖的数据交互网络。“高度弹性”能力可根据业务负载智能扩容,峰值时段自动提升 8 带宽资源,低谷期灵活收缩,避免资源浪费。创新的“灵活计费”模式按实际用量精准结算,提供按需付费、套餐包、阶梯定价等多元选择,大幅降低企业运营成本。1.4 国内外趋势与实践国内外趋势与实践 1.4.1 国外数据空间发展趋势国外数据空间发展趋势 在国际上,数据空间的发展已经成为数字经济发展的重要驱动力。欧美等发达国家纷纷制定战略和政策,推动数据空间的建设和发展。例如,欧盟提出了“欧洲数据空间”计划,旨在建立一个统一、安全、可信的数据共享框架,促进成员国之间的数据流通和协同。美国则通过“联邦数据战略”,加强对政府数据的管理和利用,推动数据的开放共享,以促进创新和经济增长。此外,国际组织如 G20 和 OECD 也在积极推动全球数据治理框架的构建,以应对数据跨境流动、数据隐私保护等全球性挑战。1.4.2 国外数据空间应用情况国外数据空间应用情况 国外的数据空间应用已经涵盖了多个关键领域。在医疗领域,数据空间的应用促进了电子健康记录的共享和远程医疗服务的发展,提高了医疗服务的可及性和效率。金融行业则利用数据空间增强风险管理和反欺诈能力,同时提供更加个性化的金融服务。工业制造领域通过数据空间实现供应链的优化和生产过程的智能化,提升了整体生产 9 效率和竞争力。此外,智能城市项目中,数据空间的应用使得城市管理者能够整合和分析来自不同部门的数据,实现城市资源的精细化管理和高效利用。1.4.3 国内数据空间发展趋势国内数据空间发展趋势 国内的数据空间发展同样呈现出快速发展的态势。中国政府高度重视数据作为关键生产要素的作用,出台了一系列政策和法规以推动数据要素市场的建设。例如,“东数西算”工程的启动,旨在优化数据中心的布局,提升算力资源的利用效率,促进数据的跨区域流通和协同处理。与此同时,要素市场化配置综合改革试点总体方案的发布,进一步明确了数据要素市场化配置的改革方向,为数据空间的发展提供了政策支持和制度保障。1.4.4 国内数据空间应用情况国内数据空间应用情况 在国内,数据空间的应用实践也在多个领域取得了显著进展。在政务服务领域,各地政府通过建设数据共享交换平台,实现了政务数据的整合和共享,提高了政务服务的效率和透明度。例如,“江宁政企通 2.0”平台就是通过整合政府和企业的数据资源,为企业提供一站式的政策服务和精准的政策推送。在工业领域,工业企业利用数据空间实现生产设备的远程监控和故障诊断,提升生产效率和设备利用率。此外,城市大脑项目中,数据空间的应用使得交通、环境、安防等多个领域的数据得以融合分析,为城市的智能化管理提供了有力支 10 持。同时,在金融、医疗、教育等行业,数据空间的应用也在不断拓展和深化,推动了行业的数字化转型和创新发展。11 二、技术基石(一):确定性网络体系二、技术基石(一):确定性网络体系 2.1 概念定义概念定义 2.1.1 基于基于 CENI 的确定性网络的确定性网络 确定性共享服务网络及控制平台,具备数据流通管控、数据流通枢纽、数据流通传输等功能。支持采用先进传输技术进行高速数据传输,通过传输协议优化,1Gbps-400Gbps 带宽场景下,实现 90%以上的传输带宽利用率,包含算网基础设施建设及共享服务网络建设。数据共享服务网络的业务核心是解决数据流通利用中的数据流通管控、数据流通枢纽、数据流通传输等数据高效、安全传输问题。数据共享服务网络的使用者包括数据提供方和数据需求方,如政府、企业或数商等,也包括数据交易平台、数据交易所等数据交易机构。主要构建思路如下:普适接入:实现随时随地的网络资源获取,支持多种接入方式,并提供灵活的计费模式。弹性伸缩:根据数据传输需求动态调整网络资源,实现资源的弹性使用。按需保障:允许客户灵活构建、管理和拆除虚拟专网,实现按需的网络连接和策略保障。确定传输:提供低延迟、低抖动、大带宽、高稳定性,支持端到 12 端的高通量数据传输。互联互通:利用已有的网络资源实现单服务商或跨服务商的网络接入。数据共享服务网络系统架构图如下图所示:基于未来网络数据共享服务网络基础设施等技术,通过 SRv6 分段路由、资源预留、时频同步、周期映射、门控队列调度、流量过滤和整形、路径规划、SDN 网络态势感知、SDN 智能编排等网络技术保障数据流通参与者大带宽、低时延、低抖动、高可靠等确定性能力需求指标;并通过数据共享服务网络接入层技术,结合数据流通参与者接入需求,通过一张物理网络可以为每个数据流通参与者提供个性化的确定性专网服务,满足不同数据流通参与者对网络的不同诉求。为满足不同用户业务的差异化 SLA 资源隔离、灵活定制拓扑和智能切片管理的需求,同时利用 FlexE 技术、子接口切片技术和 Slice ID 等切片技术来实现在物理网络上划分逻辑网络的功能。13 2.1.2 骨干层骨干层 骨干层作为确定性网络体系的核心脊梁,肩负着实现国家数据基础设施试点城市底座互联互通的重任。它构建起了城市间数据流通的高速通道,将各个分散的试点城市数据基础设施紧密相连。在这一层次中,采用了先进的网络技术和架构设计,以保障跨城市数据传输的高效性、稳定性与安全性。通过在骨干层部署高性能的网络设备,具备光电融合能力的核心路由器、高速率的光传输设备等,能够满足海量数据在城市间快速传输的需求。同时,运用软件定义网络(SDN)和网络功能虚拟化(NFV)等新型技术理念,实现对骨干网络资源的灵活调配与智能管控。当某两个试点城市之间的数据流量突发增长时,SDN 控制器能够根据实时的网络状态信息,动态调整网络路由,将数据流量合理地分配到其他空闲链路,确保数据传输的顺畅,避免网络拥塞的发生。此外,骨干层还通过建立安全可靠的连接机制,采用加密隧道技术对传输的数据进行加密处理,防止数据在传输过程中被窃取或篡改,为国家数据基础设施试点城市底座互联互通提供坚实的安全保障。基于 CENI 及其全国多元异构算力直连网,新建跨域确定性骨干网,并基于南京城市算力网现有资源,构建城市内(城域)确定性骨干网。其中,跨域部分,构建 1G-100G 弹性带宽的高速数据网络切片方式与国家数据基础设施试点城市如北京、苏州、杭州、温州、天津、福州、赣州广域高速互联骨干网;城域部分,主要利用南京城市算力 14 网现有资源,以 1*100G 方式在现有 8 个确定性网络接入 POP 点(未来网络 CENI 大厦、麒麟中国科学院、晨光科技园、鼓楼、江北新区、江宁格力基地、烽火祥云、六合化工园)基础上将市内各数据基础设施、数据参与主体就近接入,形成高速互联互通的骨干网。2.1.3 接入网接入网 接入网是确定性网络体系深入到试点城市内部的神经末梢,负责实现试点城市内各个数据基础设施、连接器之间的互联。它如同城市 15 交通中的毛细血管,将城市内的各种数据节点紧密编织在一起,形成一个有机的数据流通网络。接入网的建设需要充分考虑不同数据基础设施和连接器的接入需求与特点,采用多样化的接入技术。对于一些对网络带宽和实时性要求极高的数据中心等基础设施,可采用光纤直连的方式,提供万兆甚至更高带宽的接入能力,保障数据的高速稳定传输。而对于分布较为分散、数据流量相对较小的连接器等设备,可利用 Internet 或者专线方式接入基于 CENI 的确定性数据共享服务网络,完成数据流通利用的数据流量传输需求。南京市接入网络骨干层面构建 10Gbps 硬隔离的专网平面,满足南京市本地的数据流通利用用户的网络传输需求,并根据数据流通利用基础设施用户行业开设 N 个软隔离的网络切片,共享 10Gbps 的网络传输资源。基于用户的接入连接器物理形态和部署方案,接入网方案可以分类为:16 1、软件形式 SAAS 云化部署:接入连接器统一部署在“政务云”中,各企事业单位通过 Internet 或者“云”专线的方式与接入连接器实现互通。数据交易双方的接入连接器通过“基于 CENI 的确定性数据共享服务网络”实现数据的流通和交易。2、硬件形式 属地化部署:接入连接器统一部署在企事业本地,通过部署“SD-WAN 确定性网关”设备,采用 Internet 或者专线形式实现与“基于 CENI 的确定性数据共享服务网络”互联互通,最终实现数据交易双方的数据流通和交易。3、数据交易的参与方采用不同的部署方式:一方采用 SaaS 云化部署,另一方采用属地化部署。为了实现双方的互联互通和数据流通,云化部署用户通过 Internet 或“云”专线接入“政务云”,并利用“基于 CENI 的确定性数据共享服务网络”实现数据交易双方的高效数据流通和交易。2.1.4 算力网算力网 算力网在确定性网络体系中扮演着连接各城市算力中心与数据基础设施、连接器的重要角色,是实现算力与数据高效协同的关键纽带。在当今数字化时代,数据处理与计算需求日益增长,算力网能够将城市中的算力资源进行整合与优化配置,使其与数据的产生、存储和流通环节紧密结合。依托试点城市算力网平台,实现对异构、异属、异域城市算力的统筹纳管。基于CENI确定性网络能力,可为千行百业打造安全可信、17 灵活可控、质量确定、高性价比的传输网络,支撑数据汇聚和数据流通。通过算力网,数据基础设施和连接器产生的数据可以快速传输到相应的算力中心进行处理,而算力中心处理后的结果也能及时反馈回数据基础设施和连接器,实现数据与算力的无缝对接。例如,在人工智能模型训练场景中,数据基础设施收集到的大量训练数据通过算力网迅速传输到算力中心,利用算力中心强大的计算能力进行模型训练,训练完成后的模型参数又通过算力网传回到数据基础设施,为后续的应用提供支持。同时,引入了算力感知的路由算法,能够根据各算力中心的负载情况和网络状态,智能地选择最优的路径传输数据,提高算力资源的利用效率,保障数据处理任务的高效执行。2.2 关键能力指标关键能力指标 2.2.1 时延分级模型(时延分级模型(Level-1 至至 Level-5)时延分级模型将网络时延划分为五个级别,从Level-1 到 Level-5,时延要求逐渐降低,以满足不同快速响应场景的需求。Level-1:这是对时延要求最为苛刻的级别,主要应用于如远程手术、工业自动化中的高精度实时控制等场景。在远程手术中,医生的操作指令需要实时、准确地传输到手术器械端,任何微小的时延都可能导致手术操作的偏差,危及患者生命安全。因此,Level-1 要求网络时延能够控制在亚毫秒级,确保指令的瞬间传递,实现手术操作的精准同步。18 Level-2:适用于自动驾驶等场景。在自动驾驶过程中,车辆需要实时感知周围环境信息,如其他车辆的位置、速度等,并迅速做出决策。网络时延如果过大,车辆可能无法及时响应突发情况,引发交通事故。所以,Level-2 要求时延在 1-5 毫秒之间,保障车辆对环境变化的快速响应,确保行驶安全。Level-3:常见于高清视频实时互动、云游戏等场景。在高清视频实时互动中,如远程视频会议、在线教育直播等,参与者希望看到的画面和听到的声音能够实时同步,没有明显的延迟,以保证沟通的顺畅性和体验的沉浸感。云游戏则需要将玩家的操作指令快速传输到云端服务器,同时将服务器处理后的游戏画面及时反馈给玩家,Level-3 的时延控制在5-10毫秒,基本能够满足这类场景对实时性的要求。Level-4:对于一些对实时性有一定要求,但相对宽容的场景,如智能家居设备的远程控制等适用。用户通过手机APP控制家中的智能灯光、窗帘等设备时,虽然希望设备能够快速响应,但短时间的延迟并不会对使用体验造成严重影响。Level-4 的时延范围在 10-20 毫秒,能够较好地平衡网络成本与用户体验。Level-5:适用于一般性的数据查询、文件下载等对实时性要求较低的场景。在这些场景中,用户可以接受一定程度的等待时间,Level-5 的时延在 20 毫秒以上,能够在保证基本服务质量的前提下,更高效地利用网络资源。19 2.2.2 抖动控制边界(抖动控制边界(s 级精度)级精度)在工业控制场景中,抖动控制边界达到s级精度至关重要。工业控制系统通常需要对生产过程进行精确控制,如在汽车制造的自动化生产线上,机械臂的运动轨迹需要严格按照预设程序执行,任何微小的抖动都可能导致产品质量问题。确定性网络通过一系列技术手段实现s级精度的抖动控制。一方面,在网络设备的硬件设计上,采用高性能的时钟同步芯片,确保各个网络节点的时钟精度达到纳秒级,减少因时钟不同步导致的抖动。例如,利用精确时间协议(PTP),通过网络传输精确的时间信息,使网络中的所有设备能够同步到同一时间基准,从而保证数据传输的定时准确性。另一方面,在网络流量调度方面,采用先进的队列管理算法和流量整形技术。当网络中存在多种不同类型的流量时,通过对不同流量进行分类,并为每种流量分配专门的队列和带宽资源,严格按照预定的速率和时间间隔发送数据,避免因流量突发或争抢资源导致的抖动。例如,对于工业控制中的关键指令数据,给予最高优先级,确保其在传输过程中不会受到其他非关键流量的干扰,从而将抖动控制在极小的范围内,满足工业控制场景对高精度、稳定网络传输的要求。2.2.3 安全隔离度(硬切片安全隔离度(硬切片/软隔离)软隔离)在可信场景中,安全隔离度通过硬切片和软隔离两种方式来保障 20 数据的安全与可信。硬切片:硬切片是一种基于物理资源划分的隔离方式,如同在一条高速公路上划分出不同的专用车道。在网络中,通过专门的硬件设备和网络拓扑设计,为不同的业务或用户组分配独立的网络资源,包括独立的链路、网络设备端口、IP地址段等。例如,在金融领域,银行的核心业务系统与其他一般性业务系统之间采用硬切片技术进行隔离。核心业务系统涉及大量敏感的客户金融信息和资金交易数据,通过独立的物理网络链路和设备进行数据传输与处理,与其他业务系统完全隔离,确保核心业务数据的安全性和完整性,防止外部非法网络访问和恶意攻击对核心业务造成影响。软隔离:软隔离则是基于软件技术实现的逻辑隔离方式。利用虚拟网络技术、访问控制列表(ACL)等手段,在共享的网络基础设施上为不同的业务或用户创建虚拟的隔离空间。以企业内部网络为例,企业的研发部门和销售部门可能使用同一套网络设备,但通过虚拟局域网(VLAN)技术将两个部门划分到不同的虚拟网络中,不同VLAN之间的通信受到严格的访问控制策略限制。只有经过授权的特定数据流量才能在不同VLAN之间进行传输,从而实现部门之间数据的软隔离,既保障了不同部门数据的安全性,又能在一定程度上实现资源共享,提高网络资源的利用效率。在一些对安全性和灵活性要求较高的可信数据共享场景中,软隔离与硬切片技术也可以结合使用,进一步提升安全隔离度,为数据的可信流通提供全方位的保障。21 2.3 标准化进展标准化进展 在确定性网络领域,IEEE和ITU-T等国际标准化组织积极推动相关标准化工作,取得了一系列重要进展。同时,未来网络与紫金山实验室在其中发挥了关键作用。IEEE方面:IEEE在时间敏感网络(TSN)、确定性WiFi(DetWiFi)等技术标准制定上成果显著。未来网络试验设施(CENI)依托紫金山实验室的科研力量,为IEEE相关标准的实践验证提供了重要平台。TSN作为解决二层网络确定性保障问题的关键技术,IEEE制定了一系列相关标准。例如,IEEE 802.1ASrev精确时间同步协议,通过在CENI网络中的部署测试,确保网络中所有设备实现高精度的时间同步,为数据的确定性传输提供时间基准,其在实际网络环境中的运行效果反馈,助力IEEE对该标准不断优化完善。在IEEE 802.1Qbv标准定义的门控流量调度机制方面,紫金山实验室联合相关科研团队,基于CENI 网络进行了大量实验,验证了该机制通过精确控制数据帧的发送时机,避免网络拥塞,实现零拥塞丢包传输的有效性,为该标准在实际应用中的推广提供了有力支撑。对于DetWiFi,IEEE正在制定相关标准以实现无线局域网中的确定性传输。紫金山实验室凭借在无线通信领域的深厚研究积累,参与到DetWiFi标准制定的研讨中,其提出的通过时钟同步、流量调度、帧抢占等技术手段保障WiFi网络在工业互联网、智能办公等场景下确定性服务质量的方案,被纳入IEEE相关标准制定的参考范畴,目前相关标准在不断完善与推进阶段,CENI网络也将持 22 续为其提供试验环境,加速标准的落地应用。ITU-T方面:ITU-T在确定性网络标准制定上也发挥着重要作用。紫金山实验室积极参与ITU-T的标准化工作,与全球科研机构和企业协同合作。例如,由北京科技大学牵头,联合中国联通集团、之江实验室等多方共同制定的ITU-T国际标准Y.3126“IMT2020 及演进系统中支持局域确定性通信的互操作能力和服务质量要求及框架”,紫金山实验室在其中贡献了自身在网络架构、性能优化等方面的研究成果,推动该标准针对异构网络间协同支持确定性通信服务,明确相关的服务质量要求及框架,为工业互联网领域的网络技术发展提供重要规范,助力确定性网络在工业场景中的应用。此外,ITU-T持续开展面向未来网络的确定性网络技术标准研究,涵盖网络架构、性能指标、安全机制等多个方面。紫金山实验室凭借在未来网络技术研究上的前瞻性,参与到多项ITU-T标准研究项目中,如在网络架构标准研究中,其提出的新型网络架构理念,强调融合光网络与IP网络优势,实现高效的数据传输与资源调度,为构建全面、系统的确定性网络国际标准体系提供新思路,促进全球范围内确定性网络技术的统一与互联互通。随着这些标准化工作的不断推进,确定性网络技术将在全球范围内得到更广泛的应用与推广,为智能体可信数据空间等新兴应用提供坚实的标准支撑。23 三、技术基石(二):智能体可信数据空间体系三、技术基石(二):智能体可信数据空间体系 3.1 概念定义概念定义 智能体可信数据空间技术是支撑基于确定性网络技术的智能体可信数据空间实现其核心功能与价值的一系列技术集合,是构建该数据空间的底层技术框架与支撑体系。它以确定性网络技术为核心骨架,深度融合区块链、隐私计算、算网协同调度等多元技术,通过技术间的协同联动,为智能体在数据空间内的交互、数据的流通以及跨域协同提供全方位的技术保障。从技术构成来看,该技术体系涵盖网络传输、信任构建、算力支撑、数据安全等多个维度。其中,确定性网络技术作为底层支撑,为智能体及数据的实时、稳定传输奠定基础;区块链技术通过分布式账本和智能合约,保障数据的不可篡改性和操作的可追溯性,构建起数据空间内的信任机制;隐私计算技术如联邦学习、TEE可信执行环境等,确保数据在“可用不可见”的前提下进行流通与共享,保护数据隐私;算网协同调度技术则实现算力与网络的协同分配,满足智能体在不同场景下的动态算力与网络需求。这些技术相互作用、相互补充,共同构成了智能体可信数据空间高效、安全、可信运行的技术基石。24 3.2 关键能力指标关键能力指标 智能体可信数据空间技术的关键能力指标是衡量其技术性能与应用效果的重要标准,主要包括以下几个方面:网络传输能力:端到端时延需10ms,以保障智能体实时交互的及时性;抖动5s,确保网络传输的稳定性;丢包率0.001%,减少数据传输过程中的丢失,保证数据的完整性。同时,具备动态切片技术,能够根据智能体和数据的不同需求,灵活分配网络资源,适应高并发的数据交互场景。信任保障能力:基于区块链技术,实现智能体身份认证的准确率达到 100%,确保接入数据空间的智能体身份真实可靠;数据权属界定的准确率99.9%,明确数据的归属,避免权属纠纷;操作行为溯源的完整性达到 100%,任何对数据的操作都能被完整记录和追溯,为责任认定提供依据。隐私保护能力:采用隐私计算技术时,数据处理的准确率99%,在保护数据隐私的同时,不影响数据的有效利用;数据泄漏风险趋近于 0,通过严格的技术手段,防止数据在流通和共享过程中被非法获取和泄露。算网协同调度能力:算力资源的分配响应时间1s,快速满足智能体的动态算力需求;算力可用性在工业等关键场景下99.9%,保障智能体持续稳定运行;算力利用率80%,提高算力资源的使用效率,降低成本。25 3.3 标准化进展标准化进展 智能体可信数据空间技术的标准化工作对于推动其规范化发展和广泛应用具有重要意义,目前在多个领域和组织的推动下取得了一定进展:网络传输方面:在确定性网络技术领域,相关国际标准化组织如IEEE正在推进TSN(时间敏感网络)系列标准的完善,针对网络传输的时延、抖动、丢包率等关键指标制定了明确的规范,为智能体可信数据空间的网络传输提供了相关的技术标准参考。同时,IETF在 SRv6(分段路由IPv6)技术标准化方面也持续发力,致力于提升广域网网络的可编程性和灵活性,以适应智能体可信数据空间动态网络资源分配的需求。信任与安全方面:区块链技术的标准化工作较为活跃,多个国际标准化组织和行业联盟如ISO、ITU-T以及Hyperledger等都在积极制定区块链相关标准,涉及分布式账本架构、智能合约规范、安全防护要求等内容,为智能体可信数据空间中信任机制的构建提供了标准依据。隐私计算领域,也有不少行业组织和研究机构在推动联邦学习、TEE等技术的标准化,明确技术应用的接口、流程和安全要求,促进隐私计算技术在数据空间中的合规应用。跨域协同方面:针对智能体可信数据空间的跨域协同需求,一些行业联盟和标准化组织正在开展数据空间互联互通标准的研究与制定。例如,在工业领域,相关组织致力于制定统一的数据格式、接口 26 协议和交互规范,以实现不同企业和部门的智能体可信数据空间之间的顺畅协同。同时,在数据权属、收益分配等方面的标准也在探讨中,为数据空间的可持续生态构建提供标准支撑。然而,由于智能体可信数据空间技术涉及多个学科和领域,技术复杂且应用场景多样,目前标准化工作仍面临一些挑战,如不同技术领域之间的标准协调难度较大、新兴技术的快速发展使得标准制定难以跟上技术迭代速度等。未来,需要进一步加强跨组织、跨领域的合作与交流,加快标准的制定与更新,推动智能体可信数据空间技术的标准化体系不断完善。四、基于确定性网络的智能体可信数据空间架构设计四、基于确定性网络的智能体可信数据空间架构设计 4.1 系统框架系统框架 基于确定性网络的智能体可信数据空间旨在构建一个安全、可信、高效的数据交互与智能体服务环境,实现私域数据的安全利用和智能 27 体之间的协同服务,促进通用领域大模型、私域大模型等数据资源的高效流转与应用,满足不同用户对于数据处理和智能服务的需求。4.1.1 数据层数据层 数据层负责智能体相关数据的存储与区块链存证。一方面,采用分布式存储技术,将智能体数据分散存储在多个节点上,确保数据的高可用性和容灾能力;另一方面,利用区块链技术对数据的产生、流转、使用等过程进行存证,保证数据的不可篡改和可追溯性。4.1.2 控制层控制层 控制层涵盖可信数据空间相关的策略引擎、智能合约等层次。策略引擎根据预设规则对智能体行为、数据访问等进行动态管控,例如,基于智能体身份和数据敏感度制定差异化访问权限策略;智能合约则实现智能体之间约定事项的自动执行,当智能体达成数据交易或协同任务共识时,智能合约自动触发相应操作,提升智能体协作效率。4.1.3 算力层算力层 算力层为智能体运行提供所需的算力资源。依据智能体类型和任务负载,在云端、边缘端合理配置算力资源。对于需要处理海量数据和复杂计算的智能体,如人工智能训练智能体,分配强大云端算力资源;对于实时性要求高、靠近数据源的智能体,如物联网边缘智能体,就近提供边缘算力支持。28 4.1.4 网络层网络层 网络层实现确定性控制、传输管道功能。引入确定性网络技术,确保智能体数据传输具备低时延、低抖动、高带宽等特性,满足智能体实时交互业务需求。例如,在工业自动化生产线场景中,网络层为控制智能体与执行智能体之间的数据传输打造确定性传输管道,保障生产指令的精准下达和执行反馈的及时上传。4.2 核心机制核心机制 4.2.1 智能体智能体可信认证可信认证:智能体可信认证基于数字身份的访问控制,为每个智能体创建唯一数字身份,该身份包含智能体基本信息、权限属性等内容,并采用加密技术对数字身份进行保护。当智能体请求访问数据或与其他智能体协同工作时,通过对数字身份的认证来判定其访问合法性。4.2.2 智能体智能体数据确权数据确权:智能体相关数据的权属标识与溯源追踪:智能体相关数据的权属标识与溯源追踪 智能体数据确权是对智能体相关数据的权属标识与溯源追踪。明确数据的归属主体,是数据拥有者还是数据生成者等,并记录数据的生成、流转、使用等全生命周期信息,以便在数据纠纷或安全事件发生时能够快速溯源。29 4.2.3 智能体确权:智能体本身的权属标识与溯源追踪智能体确权:智能体本身的权属标识与溯源追踪 智能体确权聚焦于智能体本身的权属标识与溯源追踪,确定智能体的开发者、所有者以及运营者等权属关系,并对智能体的开发、部署、运行等环节进行溯源,确保智能体的合法性和可控性。4.2.4 算网协同:数据、智能体确权后,算网资源的协同算网协同:数据、智能体确权后,算网资源的协同 智能体可信数据空间中的算网协同是指在数据权属与智能体操作权限双重确权(基于区块链存证与智能合约实现权属清晰化、操作可控化及维权可溯化)的基础上,通过计算资源(云/边/端异构算力)与网络资源(5G/6G、SRv6 可编程路由)的深度融合调度机制,以任务需求(如 AI 训练、实时决策)为驱动核心,依托算网大脑(集成DRL 强化学习引擎)动态适配最优算力节点与网络路径(实现“算随需动、网随算变”),并融合意图驱动网络(IDN)将业务语义转化为资源策略(如工业质检任务毫秒级响应需优先调度边缘 GPU 算力与低延时切片),同时在安全维度采用隐私计算(联邦学习/TEE)、数据沙箱保障原始数据“可用不可见”,通过网络切片与服务功能链(SFC)实现高敏感任务资源隔离与 SLA 合规性,最终构建“计算网络数据智能体”四维一体的可信环境,形成数据增值算力消耗智能体进化价值反馈(经分布式清算体系实时结算)的闭环生态,以技术重构信任机制,在确权与安全双约束下最大化资源效能,实现“数据流动不失控、智能协作不失序”的数字生态愿景。30 4.2.5 QoS 保障保障:可信认知、确权过程中确定性网络:可信认知、确权过程中确定性网络 SLA 绑定绑定 在智能体可信数据空间内,QoS(服务质量)保障是指通过确定性网络 SLA(服务水平协议)绑定机制,在数据与智能体完成可信认知(基于区块链存证与智能合约实现身份认证与行为审计)及双重确权(数据持有权与使用权分离)的前提下,将网络性能指标(如时延、带宽、可靠性)与算力调度策略(如边缘节点响应速度、GPU 算力分配)转化为可量化、可监测、可仲裁的 SLA 合约条款,并依托意图驱动网络(IDN)动态生成网络切片策略与服务功能链(SFC),实现“任务资源质量”的强一致性匹配:具体而言,在智能体执行协同任务(如联邦学习、实时决策)过程中,SLA 条款明确约束数据传输路径的端到端时延上限(如工业质检任务需10ms)、算力节点可用性(如99.9%)、数据流安全隔离等级(如金融风控场景需独占切片)等关键参数,并通过动态信任评估模型实时交叉验证云端与客户端监测数据(如时延抖动、丢包率),结合隐私计算(TEE/联邦学习)保障原始数据“可用不可见”的同时,对 SLA 违例事件(如算力超时、带宽不足)触发自动清算与惩罚机制(如智能合约扣减信用积分或执行经济赔偿),最终形成“确权驱动 SLA 生成、SLA 绑定资源调度、动态验证闭环反馈”的 QoS 保障体系,确保智能体协作任务在安全可信、性能可预期、权责可追溯的框架内高效执行。31 4.3 数网数网协同模型协同模型 4.3.1 云边端三级算力调度云边端三级算力调度 云边端三级算力调度方案通过构建云端统筹、边缘协同、终端执行的一体化算力网络,实现算力资源的精准匹配与高效利用,为智能体应用提供弹性可靠的算力支撑。该方式打破传统算力孤岛格局,让算力像水电一样随需调配,满足不同场景的算力需求。云端作为全局算力调度中心,负责全域算力资源的监控、分析与决策。边缘节点分布在园区、厂房、学校等靠近终端的位置,形成分布式算力集群,承担本地化数据处理与实时响应任务。终端设备布置在智能体应用现场,如政务大厅等,形成层次分明的算力梯队。核心功能方面,方案具备智能感知、动态调度、协同计算三大能力。智能感知系统通过实时监测各节点的算力负载、网络带宽、能耗状态等关键指标,精准识别算力供需缺口。动态调度机制基于 AI 预测模型,在毫秒级时间内完成算力资源的最优分配,当边缘节点负载过高时自动向云端或邻近节点请求算力支援,终端设备则根据任务复杂度自适应调用本地或边缘算力。通过优化的粒子群优化算法,实现全局算力分配的最优解,调度延迟控制在 50 毫秒以内。边缘计算框架支持容器化部署与微服务架构,可快速部署 AI 推理、数据过滤等本地化服务。云边协同协议采用轻量化设计,在任何网络环境下都能保持 99.9%的通信可靠性。32 4.3.2 高速数据高速数据网络网络 高速数据网络指面向数据流通利用场景,依托网络虚拟化、软件定义网络等技术,提供弹性带宽、安全可靠、传输高效的数据传输服务,具有高带宽、低延迟、高可靠性、高安全性、可扩展性、灵活性等特点。高速数据网管理系统可集中配置私网地址映射规则,将可信数据空间中的连接器公网暴露 IP 转为内网私有地址。通过动态 NAT 技术,所有对外通信经网关公网接口中转,隐藏后端连接器真实 IP,规避公网扫描风险。同时系统支持一键部署地址转换策略,简化配置流程,在保障安全隔离的同时,确保数据流通链路的稳定性。4.3.3 数算网协同数算网协同 数算网协同以算力精准调度为核心、高速数据传输为纽带,构建“算力驱动网络支撑安全保障”的一体化运行体系,实现算力资 33 源与数据流通的动态适配。算力网的三级调度架构依赖高速数据网络提供底层支撑。云边端三级算力节点的实时感知数据,需通过高速数据网络的高带宽通道传输至云端调度中心,使云端能基于全域算力负载、能耗状态等动态指标制定分配策略。云端的算力调度平台,需依托高速数据网络的低延迟特性,确保边缘节点负载过高时,算力支援请求与资源调配指令能即时传递,保障协同计算的时效性。高速数据网络的安全机制为算力交互筑牢屏障。其动态 NAT 技术与私网地址映射规则,将边缘节点、终端设备的真实 IP 隐藏,通过网关中转实现算力节点间的匿名通信,规避公网扫描风险。这与算力网中跨节点数据交互需求深度适配,既保障云端对边缘、终端算力的远程调度安全,又确保本地化数据处理时的隐私隔离。两者通过协议与技术协同提升整体效能。算力网的云边协同协议与高速数据网络的弹性带宽特性形成互补,在算力密集型任务执行时,网络自动扩容带宽,满足 AI 推理、数据过滤等服务的高频数据传输需求;而高速数据网络的一键部署策略,简化了算力节点接入流程,使边缘集群能快速融入全局算力网络。这种“算力调度数据传输安全防护”的闭环协同,最终实现算力像水电般随需调配,为智能体应用提供全场景数算支撑。34 五、典型应用场景与需求五、典型应用场景与需求 5.1 智能制造智能制造可信协同可信协同 5.1.1 痛点需求痛点需求 在当前全球工业发展的背景下,智能制造逐渐成为推动工业转型升级的重要动力。随着新一轮科技革命和产业变革的深入推进,智能制造不仅体现在机械设备的智能化、信息化,更在于整体产业链与供应链的深度融合和协同。但是,传统制造业在数据治理、数据共享和数据利用方面仍然面临诸多挑战,严重制约了智能制造的全面实施。首先,数据安全与商业机密保护挑战大。智能制造过程中,企业的生产工艺参数、设备运行数据、客户订单信息、供应链数据等均属于核心商业机密。这些数据在企业内部各部门流转以及与上下游合作伙伴交互时,存在被窃取、泄露的风险。同时,随着工业互联网的发展,大量设备接入网络,网络攻击手段愈发复杂,传统的安全防护措施难以抵御针对智能制造系统的高级别攻击,数据安全面临严峻挑战。其次,产业链数据孤岛制约协同效率。智能制造产业链涵盖原材料供应商、零部件生产商、整机制造商、分销商、服务商等多个环节。各环节企业的数据系统独立运行,数据格式、标准不统一,导致数据难以实现跨企业、跨环节的流通与共享。产业链数据孤岛使得整个产业链的协同效率低下,无法快速响应市场需求变化。35 再次,数据权属与利益分配机制不明。智能制造数据的产生涉及设备制造商、生产企业、操作人员、软件服务商等多个主体,数据的权属界定十分复杂。例如,智能生产设备在运行过程中产生的设备状态数据,是属于设备制造商、使用企业还是两者共有,目前缺乏明确的界定标准。数据权属不清导致在数据共享和应用过程中,各方的利益难以得到有效保障,容易引发纠纷。此外,数据应用产生的收益如何在各参与主体之间进行合理分配,也缺乏相应的机制,影响了企业参与数据共享的积极性。最后,数据质量与一致性难以保证。智能制造数据来源广泛,包括生产设备、传感器、ERP 系统、MES 系统等,数据类型多样,有结构化数据、非结构化数据等。由于不同设备的精度、传感器的灵敏度存在差异,以及数据采集过程中的环境干扰等因素,导致数据质量参差不齐,存在数据不准确、不完整、不一致等问题。例如,在产品质量检测环节,不同检测设备对同一产品的检测数据可能存在偏差,影响对产品质量的准确判断。低质量的数据无法为智能制造的决策优化提供可靠依据,制约了智能制造水平的提升。5.1.2 解决方案解决方案 为了提升制造业的竞争力,企业需要构建开放、共享、可信的数据空间,以支持各环节之间的信息交互和协同决策,提升生产效率、降低运营成本,进而提升整体竞争力。可信数据空间强化了数据的安全性与隐私保护,保障企业核心利 36 益。可信数据空间采用加密技术、访问控制、安全审计等多种安全机制,构建全方位的数据安全防护体系。对智能制造中的敏感数据进行加密处理,确保数据在传输和存储过程中的安全性;通过严格的访问控制策略,限制未经授权的用户访问数据,防止数据泄露;利用安全审计技术,对数据的操作行为进行全程记录,以便及时发现和追溯安全事件。这些措施能够有效防范数据安全风险,保护企业的核心商业机密和数据资产,保障企业的核心利益。可信数据空间能够有效打破数据孤岛,促进各参与方之间的数据共享与交互,提升产业链协同水平。可信数据空间建立统一的数据标准和接口规范,推动产业链各环节企业的数据互联互通。通过构建数据共享平台,实现原材料供应、生产制造、物流运输、销售服务等环节数据的实时共享与协同。例如,原材料供应商可以通过可信数据空间将原材料的供应信息实时共享给制造商,制造商根据这些信息及时调整生产计划;制造商也可以将产品的生产进度和库存信息共享给分销商,分销商据此优化库存管理和销售策略。产业链数据的高效流通,能够显著提升整个产业链的协同效率和快速响应能力。可信数据空间有助于明确数据权属与利益分配,激发数据价值。可信数据空间通过建立完善的数据权属界定机制和利益分配规则,明确各主体在数据产生、使用、共享过程中的权利和义务。利用区块链等技术对数据的权属进行确认和记录,确保数据权属的清晰可追溯。同时,根据各主体在数据价值创造过程中的贡献,制定合理的利益分配方案,保障各主体的合法权益。这将有效解决数据权属纠纷问题,37 提高企业参与数据共享和应用的积极性,充分激发数据的价值。可信数据空间通过提升数据质量,赋能企业智能决策。可信数据空间构建数据治理体系,对智能制造数据进行清洗、校验、整合和标准化处理,提高数据的准确性、完整性和一致性。通过建立数据质量评估模型和监控机制,实时监测数据质量,及时发现和纠正数据问题。高质量的数据能够为智能制造的生产优化、质量控制、供应链管理等提供可靠的决策支持。例如,基于准确的生产设备运行数据,企业可以预测设备故障,提前进行维护保养,减少生产停机时间;利用高质量的市场需求数据,能够更精准地进行生产计划制定,提高生产效率。总而言之,建设可信数据空间不仅是智能制造转型的重要保障,更是实现产业链与供应链高效协同的核心。可信数据空间提升了整个智能制造生态系统的透明度与韧性,各方不仅可以实时监督生产与供应链状态,还能更快速地做出调整与决策,从而有效减少风险,提高市场适应能力,进一步提升产业的整体竞争力。5.2 能源电力能源电力数据数据互联互联 5.2.1 痛点需求痛点需求 能源电力行业关系国计民生,正经历着向“绿色、低碳、安全、高质量”转型的关键时期,这就要求能源电力行业内部的各企业主体之间实现数据的广泛互联,横向快速汇聚能源生产、消费、市场等数据,纵向深度融合电源、电网、储能、用户等数据,赋能新型能源业务,38 加快实现能源产业数字化转型与深层次变革。但能源电力领域涵盖众多行业主体,涉及数据类型多种多样,长期存在数据分散标准不统一、企业间数据壁垒明显、数据供需难匹配难等问题,严重阻碍了能源电力企业之间的数据连接。数据分散性与标准不统一,数据难以“讲同一种语言”。能源电力行业环节多,涵盖发电、输电、配电、用电、调度、交易等全产业链;主体多,包括发电集团、电网公司、售电公司、用户、设备厂商等;数据类型杂,包括结构化数据(SCADA/EMS 实时数据、电表读数、设备台账、生产报表、交易结算数据)、半结构化数据(日志文件、XML/JSON 配置文件)、非结构化数据(设备图像/视频、巡检报告、设计图纸、合同文档、气象数据、卫星遥感数据)等;由于各环节数据语义不统一、接口规范不一致、数据质量参差不齐,直接导致“数据烟囱”林立,严重制约了数据价值的挖掘。企业间数据壁垒坚固,协同效率低下。能源电力行业的市场化改革尚未完全到位,企业间的竞争关系与数据安全顾虑形成了坚固的数据壁垒,阻碍了跨主体协同。行业内部,发电企业的成本数据(如煤耗、运维费用)属于核心商业机密,不愿向电网公司完全开放;电网公司的实时负荷预测数据因涉及电网安全,也仅向发电企业开放有限维度;工业用户担心用电数据泄露会暴露生产规模、开工率等商业信息等。跨行业数据壁垒更显著。能源企业与气象部门的气象数据、与交通部门的物流数据、与环保部门的排放数据缺乏共享机制。这些壁垒导致能源生态协同受限。39 数据供需匹配失衡,价值转化通道不畅。能源电力行业的数据供需存在“显性短缺”与“隐性过剩”并存的矛盾,供需两端的信息不对称导致数据资源浪费。数据需求方(如新能源场站需要气象数据做功率预测,售电公司需要用户负荷数据做套餐设计)有时难以精准描述所需数据的范围、格式、时效性等具体要求;数据提供方(如气象局、电网公司)的响应流程可能冗长,审批复杂,难以满足灵活、快速、按需的数据获取需求。5.2.2 解决方案解决方案 可信数据空间以统一的技术平台为底座,基于统一的标准规范,实现数据供需撮合对接,为能源电力企业之间的数据互联提供了最优解决方案。聚焦“能源流-数据流-价值流”的深度融合,建设包括可信数据空间底座、数据资源服务、接入连接器、运营管理平台等层的能源电力行业可信数据空间,各层设计中嵌入行业专属的技术特征与业务逻辑。可信数据空间的技术底座层整合区块链、隐私保护计算、数据沙箱、40 使用控制技术等促进数据合规使用的技术产品;数据资源服务层包括分时分区电碳因子库、电工装备碳足迹背景库、电网负荷与调控数据集、电力供需预测数据集、电力企业征信数据集等经过可信认证和合规认证的电力行业高质量数据集和行业数据;运营管理平台通过提供参与方入驻、目录展示、数据定价和资产评估等功能,是能源电力行业可信数据空间生态建设的核心。可信数据空间有助于解决能源电力数据跨主体融合中存在的数据标准各异的问题。一是可以基于统一的能源行业数据标准和技术规范,实现数据高效查询和按需获取,降低沟通和运营成本;二是可以实现其他企业数据与自有数据有效关联融合,为场景化应用建立基础;三是基于统一的标准规范,能够快捷实现跨空间互联互通,享受多个数据空间带来的数据流通红利,快速融入更广泛的数据生态。可信数据空间有助于打破企业间的数据壁垒,促进系统和数据互联互通。可信数据空间提供了一套“通用”的技术平台,一是利用多主体互联的确定性网络,快速实现能源电力企业主体的“入网”,缩短主体连接的响应周期;二是利用数据空间构建的确定性网络,可以快速建立数据交换通道,无需针对每一个数据需求开发接口;三是提供了语义转换等技术服务,为不同主体在数据合作意向范围内开展数据共享交换建立统一渠道,实现不同主体间数据的快速集成和高效交互。可信数据空间有助于强化供需精准对接,大幅降低找数取数成本。能源电力企业基于可信数据空间,一是可以便捷查询空间内的能源数 41 据,准确识别和对齐供需双方需求,快速达成合作;二是能够以空间运营方为“桥梁”,撮合供需双方建立有效联系,助力合作关系的形成;三是可以在数据空间内自行发布个性化需求,由数据提供方主动响应需求,从而实现供需双方的高度精准匹配对接,确保能源数据需求“找得到、发得出、对得齐”。5.3 公共数据可信交互公共数据可信交互 公共数据可信交互在多个领域展现出巨大的应用潜力。例如,在社会治理方面,不同部门如公安、交通、应急等需要共享数据以实现跨部门的协同治理。公共数据可信交互通过建立统一的数据共享平台,确保不同部门数据的无缝对接和整合,同时保障数据的安全性和隐私性,防止数据泄露和滥用。这种机制能够提高城市安全的实时监控和应急响应能力,为社会治理提供科学决策依据。在公共服务领域,公共数据可信交互能够优化资源配置,提升服务质量。以医疗为例,医疗数据的可信共享可以促进远程医疗和分级诊疗,提高医疗服务的可及性。通过建立数据互操作性标准,不同医疗机构之间的数据可以实现互通共享,同时在共享过程中严格保护患者的个人隐私,确保数据的匿名化和脱敏处理。此外,强大的数据处理和分析能力能够支持复杂的医疗诊断和决策,为患者提供更精准的医疗服务。在城市规划与管理中,多源数据的融合分析有助于实现城市资源的优化配置和精细化管理。城市规划部门可以利用地理信息数据、人 42 口数据、经济数据等进行综合分析,制定更加科学合理的城市发展规划。公共数据可信交互确保这些数据的动态更新和实时性,反映城市发展的最新状况。结合大数据和人工智能技术,它还能提供智能决策支持,提升城市规划和管理的科学性,助力打造智慧城市。在环境监测与保护领域,公共数据可信交互对于实现环境保护和污染治理至关重要。环保部门、气象部门、水利部门等需要共享数据,以实现对空气质量、水质、土壤等环境要素的实时监测和综合分析。通过建立实时监测系统,公共数据可信交互能够确保环境数据的准确性和可靠性,及时发现和预警环境问题,并支持科学的环境决策。同时,它还促进了不同部门之间的跨部门协同,实现数据共享和联合行动,共同应对环境挑战。在公共资源配置方面,公共数据可信交互可以确保资源分配的公平性、透明性和效率。以公共资源交易平台为例,通过共享和分析公共资源交易数据,该机制能够优化资源配置,提高公共资源的利用效率。它保证了公共资源交易数据的透明性,接受社会监督,并利用大数据和人工智能技术实现资源与需求的智能匹配和推荐。此外,公共数据可信交互还建立了防欺诈机制,确保公共资源交易的公正性和合法性,从而提升公共资源的管理效能。43 5.4 智慧城市智能体交互智慧城市智能体交互 5.4.1 痛点需求痛点需求 在新型智慧城市建设中,交通、气象等领域的智能体交互是实现城市精细化治理的核心支撑。当前跨领域智能体协同仍面临多重挑战,制约了智慧城市整体效能的发挥。跨域数据安全与隐私保护风险突出。智慧城市智能体交互涉及海量敏感数据,包括交通卡口的车辆轨迹、气象监测的地理信息、市民出行的个人行为数据等。这些数据在交通信号控制智能体、气象预警智能体、应急指挥智能体等跨领域流转时,存在数据泄露、滥用的风险。同时,各类智能体接入网络的接口安全防护不足,易遭受恶意攻击,威胁城市运行安全。领域数据孤岛阻碍协同响应。交通、气象、城管、应急等部门的智能体系统独立建设,数据标准、接口协议、存储格式存在差异。例如,交通智能体的路况数据与气象智能体的降水预警数据格式不兼容,导致暴雨天气下无法快速联动调整交通信号配时;城管智能体的占道施工信息未能实时同步至导航智能体,造成市民出行规划偏差。数据孤岛使得城市级突发事件难以实现多智能体协同处置。数据权属模糊与利益分配失衡。智慧城市数据产生主体多元,交通数据可能来自交管部门、网约车企业、车载终端等,气象数据涉及气象局、科研机构、监测设备厂商等。数据权属界定缺乏统一标准,例如交通流量数据的所有权归属采集部门还是城市管理主体,气象预 44 测数据的收益如何在数据提供方与应用方之间分配,这些问题导致各主体对数据共享持谨慎态度,影响智能体交互的深度。数据质量参差影响决策精度。智能体交互依赖高质量数据支撑,但其数据来源广泛且采集条件复杂。交通摄像头因光线、遮挡导致数据失真,气象传感器因维护不当出现监测偏差,不同部门数据更新频率不一致造成时间维度错位。例如,交通智能体基于滞后的车流量数据调整信号时长,可能加剧拥堵;气象智能体使用低精度降水数据触发预警,易引发市民恐慌或应急资源浪费。5.4.2 解决方案解决方案 构建智慧城市可信数据空间,是破解跨领域智能体交互难题、实现交通与气象等应用协同增效的关键路径,能够为城市治理提供安全、高效、可信的支撑体系。可信数据空间筑牢跨域数据安全防线,保障智能体交互隐私。通 45 过部署数据加密、访问控制、安全沙箱等技术,对交通轨迹、气象敏感数据等进行全生命周期安全防护。建立基于角色的权限管理机制,严格限制智能体数据访问范围,例如气象智能体仅能获取交通智能体的匿名路况数据,无法追溯具体车辆信息。利用安全审计系统对智能体数据交互行为全程记录,实现异常操作实时预警与追溯,确保数据使用合规可控。可信数据空间打破领域壁垒,提升智能体协同响应效率。统一交通、气象等领域的数据标准与接口规范,构建跨部门数据共享平台。通过标准化处理,实现交通流量、降水强度、道路施工等数据的互联互通,支持智能体实时调取所需信息。例如,暴雨天气时,气象智能体可通过可信数据空间将预警信息推送至交通智能体,触发信号灯动态调整、积水路段限行等联动策略;应急指挥智能体能够同步调用交通疏散路径数据与气象灾害扩散模型,制定科学救援方案。可信数据空间明确权属与利益分配,激发协同动力。建立数据权属登记机制,利用区块链技术记录交通、气象等数据的产生主体、采集过程与使用权限,实现权属可追溯。制定差异化利益分配规则,根据数据贡献度确定收益分成比例,例如网约车企业提供的实时路况数据可按使用频次获得收益,气象部门的预测数据在商业导航应用中产生的价值可按约定比例返还。清晰的权责与利益机制,提升各主体参与智能体数据共享的积极性。可信数据空间提升数据质量,强化智能体决策精度。构建全流程数据治理体系,对交通、气象等数据进行清洗、校验、融合与标准化 46 处理。建立数据质量评估模型,实时监测数据完整性、准确性、时效性,对异常数据自动标记并触发补采机制。例如,通过算法修正交通摄像头的遮挡数据,校准气象传感器的漂移误差,统一各部门数据更新频率。高质量数据支撑下,交通智能体可精准预测车流高峰,气象智能体可提高灾害预警精度,实现多智能体协同决策的科学性与有效性。可信数据空间为智慧城市智能体交互提供了安全可信的“数据底座”,通过打通交通与气象等领域的协同壁垒,提升了城市治理的精细化水平与应急响应能力,推动智慧城市从“各自为战”向“协同共治”转型升级。5.5 车联网可信生态车联网可信生态 5.5.1 痛点需求痛点需求 随着汽车产业进入以智能网联汽车为标志的下半场竞争,数据的价值愈发凸显。车辆通过车载感知设备和电气化,能产生包括自车状态数据、环境感知数据、事件类数据等大量数据,同时,随着车路云一体化的建设进程,路侧的智能化改造使得路侧能收集如信号灯态、道路事件、车辆轨迹、道路目标物等数据,海量的数据蕴含有大量价值亟待开发。然而,智能网联汽车在数据的收集、管理、分析和应用方面也面临着新的挑战。首先,数据安全与隐私保护风险突出。车联网场景下,车辆传感 47 器、定位系统、车载终端等会产生海量数据,其中包含大量敏感信息,如车主身份信息、车辆实时位置、行驶轨迹、驾驶习惯等。这些数据一旦泄露或被恶意利用,可能导致严重后果。其次,数据孤岛现象阻碍协同发展。车联网生态涉及车企、零部件供应商、交通管理部门、云服务提供商、保险公司等众多参与者,各主体出于商业利益、数据安全等因素考虑,往往将数据视为核心资产进行封闭管理,形成“数据孤岛”,数据孤岛使得车联网各环节无法实现高效协同,限制了车联网服务的创新和行业整体发展。再次,数据质量与可信度不足。车联网数据来源广泛,包括不同品牌、型号的车辆,不同类型的传感器和设备,数据质量参差不齐。部分数据存在噪声、误差、缺失等问题,影响数据的可用性。同时,由于缺乏有效的数据校验和溯源机制,难以判断数据的真实性和可信度。低质量、不可信的数据无法为车联网应用提供有效支撑,阻碍了车联网技术的迭代升级。最后,网络传输不确定性影响业务可靠性。车联网业务对网络传输的实时性、确定性要求极高。自动驾驶、车路协同等应用需要车辆与路侧设备、云端平台进行实时数据交互,毫秒级的延迟或数据丢失都可能引发安全事故。然而,现有网络存在带宽波动、传输延迟、丢包等不确定性问题,在车辆高速移动、复杂路况等场景下更为明显。网络传输的不确定性严重制约了车联网高级别应用的落地和普及。48 5.5.2 解决方案解决方案 通过构建一个基于确定性网络的高效的汽车行业可信数据空间,推动各企业、机构和消费者之间的数据互联,促进汽车行业从传统模式向智能化、高效化的转型,助力打造一个更加安全、可靠、互联的未来智能网联生态系统。保障数据安全与隐私,增强行业信任。可信数据空间通过采用加密技术、隐私计算、区块链等技术,构建多层次的数据安全防护体系。对敏感数据进行加密处理,确保数据在传输、存储和使用过程中的安全性;利用隐私计算技术实现“数据可用不可见”,在数据共享分析时保护原始数据不泄露;借助区块链的不可篡改特性,对数据流转全过程进行记录,实现数据溯源。这些措施有效降低了数据安全风险,保护了用户隐私,增强了消费者、行业参与者对车联网的信任,为行业健康发展奠定基础。打破数据孤岛,促进协同创新。可信数据空间建立统一的数据标 49 准和接口规范,推动各主体数据的互联互通。通过制定数据共享规则和权限管理机制,明确数据共享的范围、方式和责任,促进车企、交通管理部门、服务提供商等主体之间的数据流通。例如,车企与交通管理部门共享车辆行驶数据和路况信息,可共同优化智能交通系统;保险公司基于车辆驾驶行为数据制定个性化保险方案,实现精准定价。数据的高效共享打破了行业壁垒,促进了跨领域协同创新,催生了更多车联网新业态、新模式。提高数据质量,赋能行业升级。可信数据空间通过建立数据治理体系,对数据进行清洗、校验、标注等处理,提高数据质量。利用数据溯源技术,确保数据的真实性和可追溯性,为数据使用者提供可靠的数据来源。高质量的数据为车联网技术创新提供了有力支撑,例如,基于精准的车辆运行数据,车企可以优化车辆设计和制造工艺;利用海量的路况数据,交通管理部门可以制定更科学的交通规划方案。数据质量的提升推动了车联网行业向智能化、精细化方向发展,加速了行业的升级迭代。确定性网络提升网络传输确定性,保障业务可靠运行。可信数据空间依托确定性网络技术,如时间敏感网络(TSN)、网络切片等,为车联网业务提供稳定、可靠的网络传输环境。通过为不同业务类型分配专属的网络资源,保障关键业务的实时性和低延迟。例如,为自动驾驶业务分配高优先级网络切片,确保车辆与路侧设备、云端的实时数据交互不受其他业务干扰。网络传输确定性的提升,为自动驾驶、车路协同等高级别应用的落地提供了关键支撑,提高了车联网业务的 50 可靠性和安全性。5.6 元宇宙在线教育元宇宙在线教育 5.6.1 痛点需求痛点需求 在元宇宙沉浸式在线教育蓬勃发展的进程中,技术创新与教育模式变革深度融合,催生了全新的学习体验。在元宇宙教育环境中,数据不仅是教学过程的记录载体,更是驱动个性化学习、虚拟实验、教育资产化的核心生产要素,然而当前其流通利用面临多重瓶颈:首先,数据安全与隐私保护风险加剧。元宇宙教育涉及用户身份信息、学习行为数据、虚拟环境中的交互数据(如手势、表情识别信息)等敏感内容,这些数据若未妥善保护,可能被用于行为分析或商业滥用。传统安全防护手段难以应对元宇宙中多源异构数据的动态流转需求,亟须构建多层次的安全防护体系。其次,跨平台数据孤岛与互操作性壁垒。各元宇宙教育平台采用独立的数据标准与接口规范,导致教学资源、用户数据无法跨域共享,形成封闭的数据壁垒。例如,某高校开发的虚拟实验室数据无法与企业培训平台兼容,造成资源重复建设。数据孤岛不仅阻碍教育资源的优化配置,还限制了跨机构协作与个性化学习服务的拓展。再次,数据权属与知识产权保护机制缺失。元宇宙教育中,教学课件、虚拟场景、数字孪生模型等内容的版权归属复杂。例如,教师创作的虚拟教案与平台提供的基础框架之间的权属划分缺乏明确规 51 则。虚拟资产(如数字徽章、虚拟道具)的所有权确认与交易溯源问题突出,制约了元宇宙教育生态的价值循环。最后,网络传输不确定性影响沉浸体验。元宇宙教育对实时性与稳定性要求极高,如多人协作实验、虚拟课堂互动等场景需确保毫秒级响应。然而,现有网络环境下,带宽波动、延迟抖动等问题频发,导致虚拟场景卡顿、交互中断。例如,在 VR 远程实训中,网络延迟可能使学生操作与反馈不同步,影响实训效果。网络传输的不确定性已成为制约元宇宙教育规模化应用的关键瓶颈。5.6.2 解决方案解决方案 可信数据空间作为新型数据基础设施,通过“技术 规则”双轮驱动,以隐私计算筑底安全、区块链贯通孤岛、智能合约激活资产,彻底重构数据流通的信任基座,构建起安全可控的数据流通生态。构建全生命周期数据安全防护体系。可信数据空间通过加密技术(如国密算法 SM 系列)对传输与存储的数据进行高强度加密,确保用户隐私信息在交互过程中不可窃取。结合区块链技术,实现数据操作全程可追溯,任何对教学内容、用户行为的篡改均能被精准定位。通过隐私计算技术(如联邦学习)支持跨机构数据联合分析,在不泄露原始数据的前提下优化教学模型,实现“数据可用不可见”。破解数据孤岛与跨平台互操作性难题。可信数据空间通过制定统一数据标准,整合多源异构数据,实现教学资源、用户画像、虚拟资产的跨平台流通。例如,某高校与企业合作开发的虚拟实训平台,通 52 过标准化接口实现设备运行数据与教学管理系统的无缝对接,提升实训效率 30%以上。同时,智能合约技术自动执行数据共享规则,确保数据使用权限与收益分配透明化,激发各方参与数据协作的积极性。强化知识产权保护与价值流通。可信数据空间为元宇宙教育内容提供数字版权确权服务,通过 NFT(非同质化通证)技术为虚拟教案、数字模型等赋予唯一标识,明确创作者权益。此外,区块链的不可篡改特性为版权纠纷提供司法取证支持,降低维权成本。确定性网络传输保障教学沉浸体验。结合光电融合广域确定性网络技术、时间敏感网络(TSN)、网络切片等新兴网络技术,可信数据空间为元宇宙教育分配专属网络资源,确保实时交互场景(如虚拟课堂直播、多人协同编程)的端到端时延低于 20ms,网络可靠性达到 99.99%以上。例如,某 VR 语言学习平台通过网络切片技术隔离娱乐流量与教学数据,使语音交互延迟降低 60%,显著提升口语训练效果。六、关键技术实现路径六、关键技术实现路径 6.1 确定性网络部署确定性网络部署 基于“三大运营商资源和 CENI 确定性网络技术”构建数据要素承载网,具备高速传输、低延迟、高可靠性及安全性等特性。优化数据流通体系,提升数据传输效率与安全特性,确保“三统一”信息同 53 步,支持业务灵活流量调度,满足用户多样化接入和高性价比需求。1、骨干网:全域功能节点与区域业务/功能节点通过互联网/专线结合 SD-WAN 技术,接入数据要素承载网,实现平台节点间的高速、安全数据传输及“三统一”信息同步的增强服务,保障业务互联互通。2、接入网:基于运营商互联网基础能力与 SD-WAN 技术,打造“互联网 虚拟接入专网”服务方案,为接入主体提供灵活多样的数据传输方式。接入主体依据数据安全传输需求,通过区域业务节点平台选择“虚拟接入专网服务”并完成服务注册,即可快速实现安全、高效的数据交易组网与传输。54 基于“三大运营商资源和 CENI 确定性网络技术”构建数据要素承载网,具备高速传输、低延迟、高可靠性及安全性等特性。优化数据流通体系,提升数据传输效率与安全特性,确保“三统一”信息同步,支持业务灵活流量调度,满足用户多样化接入和高性价比需求。1、高效网络加速:专用网络与高效路径优化,实现网络传输加速,提升数据传输效率。2、数据加密传输:专网隔离与端到端加密,解决“公网”数据暴露风险,保障数据传输安全。3、智能故障定位:采用分层网络设计与智能监控诊断工具,快速定位并修复故障,降低对全局影响,提升网络可靠性与稳定性。4、使用成本效益:通过优化网络资源配置提供高效数据传输,降低使用成本,使接入主体在享受高性能与高可靠性服务的同时,实现更高性价比。6.2 算力协同部署算力协同部署 算力协同部署在南京市数据基础设施项目中,致力于整合城市内分散的算力资源,实现算力与数据的高效协同,提升城市整体的算力服务能力。算力资源整合:整合各类算力资源,涵盖高校科研计算资源、企业数据处理算力以及政府部门的政务数据统计分析算力等。通过数据基础设施的算力网络,将这些分散在不同机构、不同领域的算力资源进行统一管理与调度。例如,在某大型科研项目中,高校的科研计算 55 集群算力不足时,可通过数据基础设施的算力协同机制,调用企业闲置的云计算资源,实现算力资源的跨机构共享,避免了资源的浪费,提高了整个城市算力资源的利用率。同时,对不同类型的算力,如通用计算、智能计算、超级计算等进行分类整合,根据不同业务场景的需求,灵活调配相应的算力资源,提升算力服务的针对性与有效性。算力网络构建:构建专门的算力网络,连接城市中的算力中心与数据基础设施、连接器。基于光电融合技术,通过“IP 光”的融合路径,打造出低时延、低抖动、高通量、高可靠的网络链路。基于 IPv6 的扩展协议为每一个接入算力网的设备分配独立的 IP 地址,确保数据传输的准确性与高效性。结合软件定义网络(SDN)技术,对网络流量进行灵活调控,根据不同业务对算力和网络的需求优先级,合理分配网络带宽资源,保障关键业务数据的传输质量,为算力与数据的交互提供稳定、高速的网络通道,实现数据快速传输至算力中心处理,以及处理结果及时反馈回数据基础设施和连接器。协同机制建立:建立完善的算力协同机制,包括算力调度机制、资源分配机制以及收益分配机制等。在算力调度方面,引入算力感知的路由算法,能够根据各算力中心的负载情况和网络状态,智能地选择最优路径传输数据和调度算力,提高算力资源的利用效率。资源分配机制根据业务的实时需求,动态分配算力资源,确保紧急、重要的业务优先获得足够的算力支持。收益分配机制则鼓励各参与方积极贡献算力资源,通过合理的利益分配,调动高校、企业等机构参与算力协同的积极性,保障算力协同部署的持续推进与高效运行,推动南京 56 市数据基础设施项目在算力支撑下实现数据的深度挖掘与价值创造。6.3 数据空间可信引擎数据空间可信引擎 数据空间可信引擎作为智能体可信数据空间的核心技术支撑,其构建需要综合运用多种技术手段以实现数据的安全、可信与高效流通。首先,在可信计算与认证方面,通过建立可信根,利用可信执行环境(TEE)等技术,确保智能体身份的真实性和可靠性,为数据空间打造坚实的信任基础。同时,采用智能体身份认证与授权机制,精准控制智能体对数据的访问权限,防止未授权访问和数据泄漏风险。其次,数据加密与隐私保护至关重要。运用先进的加密算法对数据进行加密处理,确保数据在存储和传输过程中的机密性。结合密钥管理与分发技术,使授权智能体能够安全地解密和使用数据。此外,引入差分隐私与同态加密等前沿技术,在保护数据隐私的前提下,实现数据的可用性,满足不同场景下的数据共享需求。再者,智能合约与规则引擎的应用为数据空间的可信协作提供了有力支持。基于区块链的智能合约技术可以自动执行预设的规则和条件,实现数据共享、交易等操作的自动化和可信化。同时,规则引擎能够根据预先定义的策略和规则,对数据的访问、使用等行为进行实时监控和管理,确保数据的合规使用。最后,数据存证与溯源功能为数据空间提供了完整的数据生命周期管理。通过区块链等技术对数据进行存证,确保数据的不可篡改和可追溯性。当出现数据争议或需要审计时,可以利用溯源追踪机制,快速定位数据的来源和流向,为数据的安全和可信提供有力保障。57 6.4 智能体协同协议智能体协同协议 智能体协同协议是实现智能体之间高效、可信协作的关键技术。在数据交互层面,协议需要统一智能体之间的数据格式与语义,确保数据能够被准确理解和解析。通过制定标准化的数据表示形式,以及对数据语义进行清晰的定义和规范化,减少因数据不一致导致的误解和错误。同时,数据传输协议的设计要充分考虑基于确定性网络的特点,对数据包的时序进行严格控制,保障数据的可靠传输。采用诸如确定性网络(DetIP)等技术,确保数据在传输过程中的时延、抖动等关键指标满足业务要求,为智能体之间的实时交互提供稳定的数据传输通道。在智能体协作方面,不同的协作模式与流程需要被明确地定义和规范。智能体之间的协作任务需要进行合理的分解与分配,以充分发挥各个智能体的优势和能力。通过编排和管理协作流程,确保智能体之间的协作任务能够有序、高效地执行。任务调度与资源分配是智能体协同的关键环节。根据业务需求的动态变化,采用智能的任务调度策略,将任务合理分配给合适的智能体。同时,对算力资源和网络资源进行动态分配和优化配置,确保智能体在执行任务时能够获得足够的资源支持,提高整体协同效率。在安全与可信方面,智能体之间的身份认证与授权是保障协同安全的基础。采用基于属性的访问控制等机制,对智能体的访问权限进行细粒度的管理,确保只有经过授权的智能体能够参与协作。数据与通信安全是智能体协同的重要保障。通过加密与解密机制对数据进行保护,防止数据在传输过程中被窃取 58 或篡改。同时,加强通信过程的安全防护,采用安全审计与监控手段,及时发现和处理潜在的安全威胁,确保智能体协同过程的安全可靠。最后,在互操作性与扩展性方面,智能体协同协议需要考虑不同智能体之间的互操作性。制定统一的标准和接口适配机制,实现异构系统之间的无缝对接和数据的双向映射,确保智能体能够在不同的系统环境中协同工作。此外,协议的扩展性设计至关重要。随着技术的发展和业务需求的变化,协议需要能够平滑地引入新的功能和特性,同时保持向后兼容性,确保智能体协同系统能够持续演进和发展。智能体协同协议规范智能体之间的通信、交互和协同工作流程。在通信层面,定义智能体之间的数据传输格式、编码规则和通信协议栈,确保智能体之间能够准确无误地收发数据。例如,采用轻量级的消息队列遥测传输(MQTT)协议实现智能体之间的高效消息传递,在物联网场景下,传感器智能体通过 MQTT 协议将采集到的数据发送给数据处理智能体。在交互层面,设计智能体之间的交互模型和接口,包括请求响应模型、发布订阅模型等。在协同工作流程方面,明确智能体之间协同完成任务的步骤和规则。以智能物流系统为例,仓储智能体、运输智能体和配送智能体依据协同协议,首先由仓储智能体根据库存信息规划货物出库顺序并向运输智能体发送货物交接请求;运输智能体按照约定的交接时间和地点接收货物,并实时向配送智能体反馈运输状态;配送智能体依据运输智能体提供的信息规划最优配送路线,完成货物配送任务。59 七、产业实践案例七、产业实践案例 7.1“江宁政企通“江宁政企通 2.0”在数字化转型的浪潮中,AI 技术的快速迭代,使得中小企业面临诸多困境,严重制约其发展。算力资源获取成本高:中小企业普遍面临算力资源匮乏且成本高昂的难题。一方面,受限于资金和技术实力,企业难以独立构建大规模算力设施,导致在处理大模型训练等复杂任务时,算力严重不足,业务推进缓慢。另一方面,传统的算力租赁模式价格高昂,按使用量计费的方式使得中小企业在业务高峰时算力成本剧增。AI应用技术门槛高:市场上通用大模型难以满足企业个性化需求,而定制开发大模型成本高、周期长,超出中小企业承受范围。同时,大模型的部署和维护需要专业技术团队,中小企业技术人才短缺,难以有效管理和优化模型,无法充分发挥大模型的效能。如何利用自身数据与基础大模型匹配,形成本地知识库,是中小企业面临的技术难题。江宁政企通 2.0 打造算网智一体化数据基础设施,旨在助力中小企业突破数字化转型困境,针对算力资源获取成本高的问题,通过确定性网络整合市省/区域国家多级算力资源,借助算网协同调度平台,实现算力灵活调用,让中小企业能按需获取算力,降低获取成本与使用门槛,满足复杂任务的算力需求,加快业务推进速度。在应 60 对 AI 应用技术门槛高的挑战上,帮助企业进行基础大模型选型与适配,并与企业自身数据深度融合,形成本地知识库,为企业提供一站式 AI 智能体服务。整体架构如图,打造未来算网协同调度平台,通过确定性网络连接本地一体机资源和云端算力资源,各节点适配不同版本 DeepSeek R1 模型,形成云边一体化的算网智数据基础设施。通过底层算网资源整合与协同运作,企业应用并发量小时使用本地资源,并发量大时跳转云端算力。同时,通过整合企业的历史数据,构建本地 RAG 知识库,形成企业特色的 AI 智能体应用。通过未来网络基础设施及其多元异构算力直连网构建 1ms 时延的城市算力网、5ms 时延区域一体化网络、20ms 时延的国家“东数西算”新总线。该网络连接企业本地算力与市区域国家级算力,为 61 算力整合和调度奠定技术基础。通过确定性网络接入的算力资源,企业可在平台上查看不同算力中心的实时报价,点击算力购买可跳转到算网智一体化调度平台,根据企业自身通算、智算、超算的不同需求,进行详细定制。定制完毕后,该平台通过编策略自动排序算网资源,企业用户点击即可实现资源实时开通,降低算力资源部署难度。企业本地部署 DeepSeek 70B 版本大模型,满足日常应用需求,快速响应本地数据处理需求,云端部署 DeepSeek 671B 满血版,可实现复杂业务运算。62 同时,支持使用企业的历史数据打造本地 RAG 知识库,通过 TXT、PDF、DOCX 等多种格式原始文档导入识别,使用噪声清洗等技术剔除干扰信息,提供自动分块以及按分段标识分块技术,提高知识检索与应用的针对性,对分块文档进行向量化处理,打破传统基于关键词匹配的局限,实现基于语义的深度理解与检索。预留可信数据空间连接器,采用“数据不出域、可用不可见、可控可计量”的应用模式。方便企业快速接入行业可信数据空间获取数据资源,训练自身业务大模型,或发布流通自身脱敏数据,实现数据价值产业链打造。7.2 菲尼克斯云化菲尼克斯云化 PLC 智能体智能体 在工业自动化领域,传统 PLC(可编程逻辑控制器)虽然在控制逻辑、稳定性和可靠性方面有着显著优势,但随着智能制造和工业 4.0的发展,其系统封闭、扩展性差、灵活性不足、维护成本高等局限性和问题也逐渐显现,这些问题促使工业企业寻求更高效、灵活和智能 63 的解决方案。云化 PLC 作为工业控制系统的新兴形态,以其开放性、灵活性和智能化的特点,引领着智能制造的新潮流。云化 PLC 是将传统 PLC 的处理控制功能虚拟化后部署到云端,本地保留分布式控制单元和 I/O 端子,通过软硬解耦的方式增强 PLC 的兼容性与适配性,为工业自动化带来前所未有的灵活性和效率。在制造业领域,云化 PLC 的应用场景非常广泛。首先,云化 PLC可以实现生产线的实时监控与远程管理。通过传感器采集到的数据云化 PLC 可以实时监测设备的运行状态、产品的质量指标等,并将这些数据上传到云端,供管理人员随时查看和分析。同时,云化 PLC 还可以通过云端下发指令,实现对设备的远程控制和调节,提高了生产线的灵活性和可控性。确定性网络是云化 PLC 的“神经中枢”,满足工业控制对通信的实时性、可靠性和同步性的极致要求。传统网络的“尽力而为”传输无法满足毫秒级甚至微秒级时延需求,也难以控制抖动,会导致指令与设备动作不同步。确定性网络通过时间同步、流量调度和资源预留机制,确保控制数据在固定窗口传输;借助冗余机制、网络切片和双链路热备提升可靠性,避免中断或数据丢失;通过微秒级时间同步支持多设备协同作业。确定性网络为云化 PLC 构建了一条媲美本地总线的虚拟控制通道,不仅满足工业控制对网络性能的严苛要求,还推动工业自动化向柔性化、智能化演进,为智能制造提供底层支撑。菲尼克斯作为国内领先的 PLC 自动化厂商,与未来网络联合打造了基于确定性网络的云化 PLC 智能体解决方案,通过融合确定性网 64 络通信、PLC 虚拟化控制逻辑以及自主决策能力,构建“实时感知智能决策精准执行”的闭环,实现复杂场景下的高效协同与动态优化。该方案在某电子元器件产线部署落地。在车间产线上,部署工业质检相机,通过 AI 机器视觉质检实现电阻外观缺陷检测(如并环、端环、气泡等),并将检测结果数据通过确定性网络传输至云化 PLC 智能体,用于触发控制产线侧的高速气缸,实现不良品的自动剔除,形成“感知(视觉)决策(智能体)执行(PLC)”的闭环融合,确定性网络则是确保这一融合高效运转的“神经中枢”,最终实现工业系统从“被动控制”向“主动优化”的智能化升级。同时,云化 PLC 智能体可整合 AI 机器视觉的历史数据与实时检测结果,优化控制策略,实现“自适应质检 预测性控制”。另外,中心 AI 训练平台通过调用标注过的异常/错误样本数据对模型进行再训练和评估,以提高模型的准确性和泛化能力。然后将新模型通过确定性网络快速推送部署回边缘设备,更新推理模型,使得模型学习到的最新知识能够立刻应用于生产,实现 AI 模型“边用边学、常用常新”。65 云化 PLC 作为智能制造的关键技术之一,其发展不仅关乎企业的技术进步,更关系到国家工业的长远发展。确定性网络赋能的云化PLC 智能体,正推动制造业向“集中控制、无线柔性、AI 驱动”范式演进。其价值不仅体现为成本与安全的优化,更深层的是打破 OT 层封闭性,为工业互联网提供“一网到底、算控一体”的数字基座。未来,云化 PLC 智能体将朝着更加智能化、集成化、绿色化的方向发展,为制造业的高质量发展提供坚实的技术支撑。7.3 杭州市“城市大脑”公共数据智能体应用项目杭州市“城市大脑”公共数据智能体应用项目 杭州市“城市大脑”项目是公共数据智能体应用的典型案例。该项目构建了智能体可信数据空间,整合多领域公共数据,创建各类智能体实现城市精细化管理。案例背景:杭州市“城市大脑”项目旨在通过公共数据的开发利用,提升城市管理效率和市民生活质量。项目整合了交通、医疗、环保、城管等领域的公共数据,构建了一个智能体可信数据空间。智能体应用:数据治理智能体负责对各部门上报的原始公共数据进行清洗、分类和标注。例如,对交通摄像头采集的车辆通行数据去除重复记录,纠正车牌识别错误信息,将处理后的结构化数据存储于数据层。交通优化智能体实时获取道路车流、公交地铁运行等数据,运用机器学习算法预测交通流量变化,自动优化信号灯时长配置,提高车辆通行效率。医疗协同智能体对接医院挂号、就诊、检查检验等信息系统,实现医疗资源智能调度,缩短患者候诊时间。66 技术亮点:杭州市“城市大脑”项目采用可信认证,所有智能体均基于数字身份证书进行身份认证,确保通信双方身份合法性。利用区块链技术对数据和智能体进行确权,实现数据权属标识和溯源追踪,确保智能体的合法性和可控性。根据智能体任务需求,在云端和边缘端合理分配算力资源,实现智能体的高效运行。应用效果与价值:杭州市“城市大脑”项目打破了部门间数据壁垒,公共数据在智能体可信数据空间中得以安全流通和深度利用。数据价值充分释放,为城市数字经济创新发展提供了有力支撑。为城市公共数据开发利用打造了可信、可控、协同的环境,吸引了更多企业、科研机构等参与城市数据应用创新,形成了良性发展的数据生态。八、发展建议与展望八、发展建议与展望 8.1 产业生态构建产业生态构建 基于确定性网络的智能体可信数据空间的产业生态构建,将围绕“技术协同深化、场景价值释放、生态壁垒打破”三大主线,推动芯片、算力、网络、可信空间、密态计算等核心环节形成深度耦合的创新体系,为智能体跨域协同与数据要素流通提供全栈支撑。在芯片层面,专用化与异构化成为核心发展方向。面向确定性网络的低时延需求,将涌现融合时间敏感网络(TSN)协议加速引擎的边缘芯片,实现微秒级时钟同步与任务调度;针对可信数据空间的安 67 全需求,集成硬件级加解密模块、安全启动与远程证明功能的安全芯片将成为标配,支撑数据全生命周期的可信根基。同时,芯片设计将深度适配智能体场景,形成“云端高性能通用芯片 边缘轻量异构芯片 终端低功耗专用芯片”的三级架构,通过统一指令集与接口标准,实现算力资源的无缝调度。算力生态将向“智能调度 绿色集约”的模式升级。云边端三级算力网络与确定性网络的融合不断深化,基于 AI 的动态调度算法将实现算力需求与网络带宽的实时匹配,确保智能体高优先级任务的算力响应延迟控制在毫秒级以内。分布式算力集群将通过可信数据空间实现跨域协同,依托粒子群优化、联邦学习等技术,在保障数据隐私的前提下完成全局算力最优分配。同时,算力网络将融入绿色节能设计,通过智能功耗调节与资源虚拟化技术,提升单位能耗的算力产出,支撑“双碳”目标下的产业可持续发展。网络技术将迈向“确定性增强 安全内生”的新阶段。确定性网络将实现从“时延可控”到“全链路可预期”的突破,通过 6G 空口技术与光传送网的深度融合,构建端到端时延抖动小于 10 微秒的确定性通道;网络切片技术将与可信数据空间联动,为不同智能体场景定制“带宽时延安全”专属网络切片,例如工业智能体的高可靠切片、交通智能体的低时延切片。此外,网络安全将从“外挂防护”转向“内生免疫”,通过动态 NAT、零信任架构与可信计算技术的集成,实现网络节点身份可信、数据传输加密、行为操作可追溯的全程防护。可信空间将走向“标准化 开源化 跨域化”。行业级可信数据空 68 间标准体系将逐步完善,涵盖数据接口、安全协议、权属界定等关键环节,推动金融、制造、城市等领域的可信空间互联互通。开源社区将成为生态创新核心载体,提供标准化的可信空间中间件与开发工具,降低企业部署门槛。跨域可信联盟将广泛形成,通过区块链技术实现数据权属链上存证、利益分配智能合约自动执行,打破“数据孤岛”与“信任壁垒”,让智能体在医疗、交通等敏感场景实现安全高效的数据交互。密态计算技术将实现“全场景适配 易用性提升”。作为数据“可用不可见”的核心支撑,密态计算将与联邦学习、安全多方计算深度融合,形成覆盖数据采集、传输、存储、计算的全流程隐私保护方案。面向智能体实时交互需求,轻量级密态计算算法将突破性能瓶颈,在边缘节点实现毫秒级加密计算响应。同时,密态计算将与开发工具链深度集成,通过可视化编程界面与预制算法模板,降低企业应用门槛。未来,芯片的算力支撑、网络的确定性保障、可信空间的协同载体、密态计算的安全防护将形成“四位一体”的产业生态闭环。在政策引导与市场驱动下,产学研用将深度协同,培育出一批具备核心技术的领军企业、开源社区与行业联盟,推动基于确定性网络的智能体可信数据空间成为数字经济的核心基础设施,为千行百业的智能化转型注入强劲动能。8.2 标准体系推进标准体系推进 在智能体可信数据空间标准体系推进上,与信通院等相关机构紧 69 密合作。联合信通院制定智能体身份认证标准,规范智能体数字身份的创建、管理、认证流程和接口,确保不同厂商开发的智能体能够在统一的身份认证框架下实现互认。协同信通院构建智能体数据确权与溯源标准,明确数据确权的原则、方法和溯源的技术要求,为智能体数据的合法流通和使用提供标准依据。8.3 未来方向未来方向 基于确定性网络的智能体可信数据空间的未来发展,将深度融入国家战略与前沿技术创新浪潮,通过“东数西算”战略落地,构建更具韧性、安全与效率的数字基础设施,为智能体跨域协同与数据要素流通开辟全新路径。“东数西算”战略的推进将与确定性网络形成“算力调度网络支撑可信流通”的协同体系,推动智能体可信数据空间实现跨区域资源优化配置。确定性网络将成为“东数西算”的“算力高速公路”,通过端到端时延确定性保障与动态带宽调度能力,支撑东部实时算力需求向西部枢纽节点的弹性迁移。例如,东部智能制造场景的智能体可通过确定性网络,将非实时的数据分析任务调度至西部算力枢纽,而本地边缘节点依托低时延特性保障生产控制指令的实时执行,实现“东部算实时、西部算非实时”的高效分工。可信数据空间将为“东数西算”中的数据流通提供合规载体,通过统一的数据权属界定、安全审计与利益分配机制,破解跨区域数据共享的信任壁垒。在确定性网络支撑下,东部企业的敏感数据可在加 70 密状态下传输至西部算力中心进行计算,数据“可用不可见”的密态处理模式将广泛应用。同时,智能体将成为“东数西算”的“动态调度中枢”,通过感知东西部算力负载、网络状态与数据需求,基于 AI预测模型实现算力资源的跨区域最优分配,使东部数据要素与西部算力资源的匹配效率提升 30%以上,推动形成“算力跟着数据走、数据贴着需求流”的良性循环。未来,“东数西算”的资源优化,将推动基于确定性网络的智能体可信数据空间进入“全域协同、全域安全”的新阶段。这一融合创新不仅将夯实数字经济的基础设施底座,更将为千行百业的智能化转型提供“算力可调度、数据可流通、安全可信赖”的核心支撑,加速构建更具活力与韧性的数字生态。附录 A:术语与缩略语 中文名称中文名称 英文缩写英文缩写 英文全拼英文全拼 可编程逻辑控制器 PLC Programmable Logic Controller 时间敏感网络 TSN Time-Sensitive Networking 可信数据空间 TDS Trusted Data Space 软件定义网络 SDN Software-Defined Networking 网络功能虚拟化 NFV Network Function Virtualization 71 服务水平协议 SLA Service Level Agreement 意图驱动网络 IDN Intent-Driven Networking 未来网络基础设施 CENI Chinas Emerging Networking Infrastructure 弹性以太网 FlexE Flexible Ethernet IPv6 分段路由 SRv6 Segment Routing IPv6 可信执行环境 TEE Trusted Execution Environment 通用公共许可 GPL General Public License 全球移动通信系统 GSM Global System for Mobile Communications 增强型数据速率 GSM 演进技术 EDGE Enhanced Data Rates for GSM Evolution 长期演进 LTE Long Term Evolution 5G 增强技术 5G-Advanced 5G Advanced 第六代移动通信技术 6G 6th Generation Mobile Communication Technology 多协议标签交换 MPLS Multi-Protocol Label Switching 网络地址转换 NAT Network Address Translation 用户驻地CPE Customer Premises Equipment 72 设备 虚拟专用网 VPN Virtual Private Network 域名系统 DNS Domain Name System 动态主机配置协议 DHCP Dynamic Host Configuration Protocol 简单网络管理协议 SNMP Simple Network Management Protocol 光传送网 OTN Optical Transport Network 同步数字体系 SDH Synchronous Digital Hierarchy 密集波分复用 DWDM Dense Wavelength Division Multiplexing 粗波分复用 CWDM Coarse Wavelength Division Multiplexing 互联网协议 IP Internet Protocol 传输控制协议 TCP Transmission Control Protocol 用户数据报协议 UDP User Datagram Protocol 地址解析协议 ARP Address Resolution Protocol 反向地址解析协议 RARP Reverse Address Resolution Protocol 网际控制报文协议 ICMP Internet Control Message Protocol 边界网关协议 BGP Border Gateway Protocol 开放最短路径优先 OSPF Open Shortest Path First 73 路由信息协议 RIP Routing Information Protocol 虚拟路由冗余协议 VRRP Virtual Router Redundancy Protocol 链路聚合控制协议 LACP Link Aggregation Control Protocol 生成树协议 STP Spanning Tree Protocol 快速生成树协议 RSTP Rapid Spanning Tree Protocol 多生成树协议 MSTP Multiple Spanning Tree Protocol 认证授权计费 AAA Authentication,Authorization and Accounting 动态主机配置协议 DHCP Dynamic Host Configuration Protocol 简单邮件传输协议 SMTP Simple Mail Transfer Protocol 邮局协议版本 3 POP3 Post Office Protocol-Version 3 互联网消息访问协议版本 4 IMAP4 Internet Message Access Protocol-Version 4 超文本传输协议 HTTP Hypertext Transfer Protocol 超文本传输安全协议 HTTPS Hypertext Transfer Protocol Secure 文件传输协议 FTP File Transfer Protocol 安全文件SFTP Secure File Transfer Protocol 74 传输协议 远程登录协议 Telnet Telecommunication Network 安全外壳协议 SSH Secure Shell 网络时间协议 NTP Network Time Protocol 精确时间协议 PTP Precision Time Protocol 用户数据报协议 UDP User Datagram Protocol 实时传输协议 RTP Real-time Transport Protocol 实时控制协议 RTCP Real-time Control Protocol 流媒体协议 RTSP Real Time Streaming Protocol 移动边缘计算 MEC Mobile Edge Computing 雾计算 FC Fog Computing 云计算 CC Cloud Computing 边缘计算 EC Edge Computing 人工智能 AI Artificial Intelligence 机器学习 ML Machine Learning 深度学习 DL Deep Learning 联邦学习 FL Federated Learning 强化学习 RL Reinforcement Learning 自然语言处理 NLP Natural Language Processing 计算机视觉 CV Computer Vision 75 机器人流程自动化 RPA Robotic Process Automation 数字孪生 DT Digital Twin 物联网 IoT Internet of Things 工业互联网 IIoT Industrial Internet of Things 车联网 V2X Vehicle to Everything 元宇宙 Metaverse Metaverse 区块链 BC Blockchain 智能合约 SC Smart Contract 非同质化代币 NFT Non-Fungible Token 分布式账本技术 DLT Distributed Ledger Technology 哈希算法 Hash Hash Algorithm 对称加密 Symmetric Encryption Symmetric Encryption 非对称加密 Asymmetric Encryption Asymmetric Encryption 数字签名 Digital Signature Digital Signature 数字证书 Digital Certificate Digital Certificate 公钥基础设施 PKI Public Key Infrastructure 零信任网络架构 ZTNA Zero Trust Network Architecture 网络安全 Network Security Network Security 信息安全 Information Security Information Security 数据安全 Data Security Data Security 隐私计算 Privacy Computing Privacy Computing 差分隐私 DP Differential Privacy 同态加密 HE Homomorphic Encryption 安全多方SMPC Secure Multi-Party 76 计算 Computation 数据脱敏 Data Desensitization Data Desensitization 数据加密 Data Encryption Data Encryption 数据备份 Data Backup Data Backup 数据恢复 Data Recovery Data Recovery 数据治理 Data Governance Data Governance 数据质量管理 DQM Data Quality Management 数据生命周期管理 DLM Data Lifecycle Management 数据仓库 DW Data Warehouse 数据湖 Data Lake Data Lake 数据集市 Data Mart Data Mart 大数据 Big Data Big Data 实时数据处理 Real-time Data Processing Real-time Data Processing 批处理 Batch Processing Batch Processing 流处理 Stream Processing Stream Processing 数据挖掘 Data Mining Data Mining 数据可视化 Data Visualization Data Visualization 应用程序编程接口 API Application Programming Interface 微服务 Microservice Microservice 容器化 Containerization Containerization Kubernetes K8s Kubernetes Docker Docker Docker 服务网格 Service Mesh Service Mesh 持续集成/持续部署 CI/CD Continuous Integration/Continuous Deployment DevOps DevOps Development and Operations 77 云计算平台即服务 PaaS Platform as a Service 基础设施即服务 IaaS Infrastructure as a Service 软件即服务 SaaS Software as a Service 函数即服务 FaaS Function as a Service 存储即服务 STaaS Storage as a Service 数据库即服务 DBaaS Database as a Service 网络即服务 NaaS Network as a Service 安全即服务 SECaaS Security as a Service 人工智能即服务 AIaaS Artificial Intelligence as a Service 机器人即服务 RaaS Robot as a Service 边缘即服务 EaaS Edge as a Service 区块链即服务 BaaS Blockchain as a Service 灾备即服务 DRaaS Disaster Recovery as a Service 桌面即服务 DaaS Desktop as a Service 通信即服务 CaaS Communication as a Service 监控即服MaaS Monitoring as a Service 78 务 测试即服务 TaaS Testing as a Service 知识即服务 KaaS Knowledge as a Service 统一资源定位符 URL Uniform Resource Locator 统一资源标识符 URI Uniform Resource Identifier 可扩展标记语言 XML eXtensible Markup Language JavaScript 对象简谱 JSON JavaScript Object Notation 简单对象访问协议 SOAP Simple Object Access Protocol 表征状态转移 REST Representational State Transfer 移动应用 Mobile App Mobile Application 网页应用 Web App Web Application 原生应用 Native App Native Application 混合应用 Hybrid App Hybrid Application 渐进式网页应用 PWA Progressive Web App 前端开发 Front-end Development Front-end Development 后端开发 Back-end Development Back-end Development 全栈开发 Full-stack Development Full-stack Development 数据结构 Data Structure Data Structure 算法 Algorithm Algorithm 数据库 Database Database 关系型数据库 Relational Database Relational Database 79 非关系型数据库 NoSQL Database Not Only SQL Database 结构化查询语言 SQL Structured Query Language 分布式数据库 Distributed Database Distributed Database 云数据库 Cloud Database Cloud Database 数据中心 Data Center Data Center 服务器 Server Server 存储设备 Storage Device Storage Device 网络设备 Network Device Network Device 终端设备 Terminal Device Terminal Device 传感器 Sensor Sensor 执行器 Actuator Actuator 嵌入式系统 Embedded System Embedded System 操作系统 OS Operating System Linux 操作系统 Linux Linux Windows 操作系统 Windows Windows macOS 操作系统 macOS macOS Android 操作系统 Android Android iOS 操作系统 iOS iOS 鸿蒙操作系统 HarmonyOS HarmonyOS 麒麟操作系统 Kylin OS Kylin Operating System 80 欧拉操作系统 openEuler openEuler 龙蜥操作系统 Anolis OS Anolis Operating System 深度操作系统 Deepin Deepin 红旗操作系统 Red Flag Linux Red Flag Linux 中兴新支点操作系统 NewStart OS NewStart Operating System 中标麒麟操作系统 NeoKylin NeoKylin Operating System 银河麒麟操作系统 Kylin Galaxy Kylin Galaxy Operating System 统信操作系统 UOS Union Operating System 处理器 CPU Central Processing Unit 图形处理器 GPU Graphics Processing Unit 张量处理器 TPU Tensor Processing Unit 神经网络处理器 NPU Neural Processing Unit 现场可编程门阵列 FPGA Field-Programmable Gate Array 专用集成电路 ASIC Application-Specific Integrated Circuit 内存 Memory Memory 随机存取存储器 RAM Random Access Memory 81 只读存储器 ROM Read-Only Memory 高速缓冲存储器 Cache Cache 硬盘驱动器 HDD Hard Disk Drive 固态硬盘 SSD Solid State Drive 光盘驱动器 ODD Optical Disc Drive 通用串行总线 USB Universal Serial Bus 高清多媒体接口 HDMI High-Definition Multimedia Interface 显示端口 DP DisplayPort 以太网 Ethernet Ethernet 无线保真 WiFi Wireless Fidelity 蓝牙 Bluetooth Bluetooth ZigBee 协议 ZigBee ZigBee LoRa 技术 LoRa Long Range 5G 技术 5G 5th Generation Mobile Communication Technology 4G 技术 4G 4th Generation Mobile Communication Technology 3G 技术 3G 3rd Generation Mobile Communication Technology 2G 技术 2G 2nd Generation Mobile Communication Technology 1G 技术 1G 1st Generation Mobile Communication Technology 卫星通信 Satellite Communication Satellite Communication 82 光纤通信 Optical Fiber Communication Optical Fiber Communication 微波通信 Microwave Communication Microwave Communication 毫米波通信 Millimeter Wave Communication Millimeter Wave Communication 太赫兹通信 Terahertz Communication Terahertz Communication 量子通信 Quantum Communication Quantum Communication 可见光通信 VLC Visible Light Communication 电力线通信 PLC Power Line Communication 无线传感器网络 WSN Wireless Sensor Network 无线自组织网络 Ad Hoc Network Ad Hoc Network 移动自组织网络 MANET Mobile Ad Hoc Network 无线网状网络 WMN Wireless Mesh Network 认知无线电网络 CRN Cognitive Radio Network 软件定义无线电 SDR Software Defined Radio 物联网网关 IoT Gateway IoT Gateway 工业以太网 Industrial Ethernet Industrial Ethernet 现场总线 Fieldbus Fieldbus Profibus Profibus Process Field Bus 83 协议 Modbus 协议 Modbus Modbus CAN 总线 CAN Controller Area Network LonWorks 协议 LonWorks Local Operating Network Works DeviceNet 协议 DeviceNet DeviceNet EtherCAT 协议 EtherCAT Ethernet for Control Automation Technology PROFINET 协议 PROFINET Process Field Net Sercos 协议 Sercos Serial Real-time Communication System CC-Link 协议 CC-Link Control&Communication Link 自动化金字塔 Automation Pyramid Automation Pyramid 企业资源计划 ERP Enterprise Resource Planning 制造执行系统 MES Manufacturing Execution System Supervisory Control And Data Acquisition SCADA Supervisory Control And Data Acquisition 可编程自动化控制器 PAC Programmable Automation Controller 分布式控制系统 DCS Distributed Control System 机器视觉 Machine Vision Machine Vision 84 运动控制 Motion Control Motion Control 机器人学 Robotics Robotics 工业机器人 Industrial Robot Industrial Robot 服务机器人 Service Robot Service Robot 特种机器人 Special Robot Special Robot 协作机器人 Collaborative Robot Collaborative Robot 智能制造 Intelligent Manufacturing Intelligent Manufacturing 工业 4.0 Industry 4.0 Industry 4.0 工业互联网平台 Industrial Internet Platform Industrial Internet Platform 数字工厂 Digital Factory Digital Factory 智能工厂 Smart Factory Smart Factory 黑灯工厂 Dark Factory Dark Factory 柔性制造 Flexible Manufacturing Flexible Manufacturing 精益生产 Lean Production Lean Production 敏捷制造 Agile Manufacturing Agile Manufacturing 绿色制造 Green Manufacturing Green Manufacturing 可持续制造 Sustainable Manufacturing Sustainable Manufacturing 增材制造 Additive Manufacturing Additive Manufacturing 3D 打印 3D Printing 3D Printing 工业大数据 Industrial Big Data Industrial Big Data 工业人工智能 Industrial AI Industrial Artificial Intelligence 工业数字Industrial Digital Twin Industrial Digital Twin 85 孪生 工业区块链 Industrial Blockchain Industrial Blockchain 工业信息安全 Industrial Information Security Industrial Information Security 工业网络安全 Industrial Network Security Industrial Network Security 工业控制系统安全 Industrial Control System Security Industrial Control System Security 工业物联网安全 Industrial IoT Security Industrial Internet of Things Security 工业机器人安全 Industrial Robot Security Industrial Robot Security 智能制造标准 Intelligent Manufacturing Standard Intelligent Manufacturing Standard 工业 4.0 标准 Industry 4.0 Standard Industry 4.0 Standard 工业互联网标准 Industrial Internet Standard Industrial Internet Standard 数字工厂标准 Digital Factory Standard Digital Factory Standard 智能工厂标准 Smart Factory Standard Smart Factory Standard 柔性制造标准 Flexible Manufacturing Standard Flexible Manufacturing Standard 精益生产标准 Lean Production Standard Lean Production Standard 敏捷制造标准 Agile Manufacturing Standard Agile Manufacturing Standard 绿色制造标准 Green Manufacturing Standard Green Manufacturing Standard 86 可持续制造标准 Sustainable Manufacturing Standard Sustainable Manufacturing Standard 增材制造标准 Additive Manufacturing Standard Additive Manufacturing Standard 3D 打印标准 3D Printing Standard 3D Printing Standard 工业大数据标准 Industrial Big Data Standard Industrial Big Data Standard 工业人工智能标准 Industrial AI Standard Industrial Artificial Intelligence Standard 工业数字孪生标准 Industrial Digital Twin Standard Industrial Digital Twin Standard 工业区块链标准 Industrial Blockchain Standard Industrial Blockchain Standard 工业信息安全标准 Industrial Information Security Standard Industrial Information Security Standard 工业网络安全标准 Industrial Network Security Standard Industrial Network Security Standard 工业控制系统安全标准 Industrial Control System Security Standard Industrial Control System Security Standard 工业物联网安全标准 Industrial IoT Security Standard Industrial Internet of Things Security Standard 工业机器人安全标准 Industrial Robot Security Standard Industrial Robot Security Standard

    发布时间2025-08-22 99页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 华为:智能融合生产网建设指南(77页).pdf

    ?1?.1?1.1?.1?1.2?.2?2?.4?2.1?.4?2.2?.6?3?.10?3.1?.10?3.1.1?.10?3.1.2?.11?3.1.2.1 VLAN?.11?3.1.2.2 IP.

    发布时间2025-08-21 77页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 艾瑞咨询:2025年H1中国手机银行APP流量监测报告(12页).pdf

    2025 iResearch Inc.2025年H1中国手机银行APP流量监测报告部门:TMT金融组22025.8 iResearch I来源:Usertracker多平台网民行为监测数据库(桌面及智.

    发布时间2025-08-21 12页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 华为:高品质医院网络建设指南V2.0(133页).pdf

    i 版权声明 版权声明版权声明 本建设指南著作权属于本书编写委员会单位共同所有。转载、摘编或以其他任何方式使用本建设指南的全部或部分内容的,应注明来源,违反上述声明者,著作权方将追究其相关法律责任。.

    发布时间2025-08-21 133页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 湖南大学&中国联通研究院&北邮:2025智算中心光电协同交换网络全栈技术白皮书(53页).pdf

    湖南大学 中国联通研究院中国联通软件研究院 北京邮电大学 上海交通大学2025 年 8 月智算中心光电协同交换网络智算中心光电协同交换网络全栈技术白皮书全栈技术白皮书编写说明编写说明编写单位:编写单位.

    发布时间2025-08-21 53页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 赛迪译丛:2025海湾合作委员会经济体的数字化转型报告(32页).pdf

    -1-2025 年年 8 月月 4 日第日第32期总第期总第 707 期期海湾合作委员会经济体的数字化转型报告海湾合作委员会经济体的数字化转型报告【译者按】【译者按】2025 年 5 月,国际货币基金.

    发布时间2025-08-20 32页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 2025下半年数字资产及稳定币展望:试验田、防火墙-250813(50页).pdf

    2025/08/13数字资产系列研究数字资产系列研究0101总览:从历史、人总览:从历史、人文和文和技术角度看所谓数技术角度看所谓数字字/虚拟世界虚拟世界vs.真真实世实世界界陈昊飞、吴琼2真实世界v.

    发布时间2025-08-20 50页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • Coremail CACTER邮件安全:2025年Q2企业邮箱安全性报告(22页).pdf

    2025 年第二季度企业邮箱安全性报告CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告摘要企业邮箱用户共接收正常邮件 9.67 亿封,环比下降 7.7%(季度性波动),但同比 2024 年第二季度上升 21.0%,反映企业通信活跃度提升;2025 年第二季度,企业邮箱用户共收到的垃圾邮件总量 9.72 亿,总量环比接近持平,同比增长 6.81%。其中,境外垃圾邮件占比 61.5%,境内垃圾邮件占比 38.5%。在国内归属地的垃圾邮件攻击来源 TOP10 中,香港、广东等一线城市依然是攻击跳板,境外方面,俄罗斯、美国位列首位,远超其他国家。2025 年第二季度,钓鱼邮件攻击量为 2.15 亿,同比增长 50.35%,环比下降12.24%。境外钓鱼邮件占比上升至 67.33%,表明跨境网络诈骗与渗透活动仍在加剧。国内钓鱼邮件攻击源中,香港远超贵州 7.3 倍,这可能反映出境外攻击通过香港为跳板进入大陆市场的趋势。2025 年第二季度,监测到 1,760 个企业邮箱账号被盗,攻击者利用这些被盗身份发起 18.8 万封域内钓鱼邮件,占钓鱼总量的 0.09%,平均每个被盗账号发送 107 封内部钓鱼邮件。域内钓鱼攻击具有“仿真度高、渗透性强、危害性大”的特点。一旦攻击成功,极易导致敏感信息泄露、重大经济损失及企业声誉受损,后果不堪设想。针对域内攻击的复杂性和高危害性,构建专属防护机制刻不容缓。CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告目录第一章 整体邮件概况.4一、企业邮箱邮件类型分布.4第二章 垃圾邮件及钓鱼邮件概况.5一、垃圾邮件概况分析.5(一)垃圾邮件整体概况.5(二)境内境外垃圾邮件趋势.5(三)TOP100 垃圾邮件行业分布分析.6二、钓鱼邮件概况分析.7(一)钓鱼邮件整体概况.7(二)境内境外钓鱼邮件趋势.8(三)钓鱼邮件 TOP100 行业分布分析.9三、钓鱼邮件攻击案例.9(一)垃圾邮件主题榜 TOP10.9(二)钓鱼邮件主题榜 TOP10.10(三)垃圾钓鱼邮件典型案例样本.10第三章 域内安全威胁态势.14一、域内安全威胁现状.14二、域内防护建议.14CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告第四章 暴力破解宏观态势.15一、全域破解攻击趋势.15(一)暴力破解情况.15(二)高危账号及被攻击账号域名分析.16第五章 邮件安全解决方案及建议.17一、AI 驱动的新型邮件攻防态势与应对策略.17二、强化域内钓鱼攻击防护.18CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告第一章 整体邮件概况一、企业邮箱邮件类型分布2025 年第二季度,企业邮箱用户共收到正常邮件 9.67 亿封,环比 2025 年第一季度下降 7.7%,同比 2024 年第二季度上升 21.0%,尽管季节性波动存在,整体企业邮箱的邮件活跃度仍保持上升趋势,反映企业数字化沟通频次不断增强。图 12025 年第二季度正常邮件数量统计2025 年第二季度,企业邮箱用户接收的非正常邮件 9.83 亿封,占比 49.72%;普通垃圾邮件总计 7.53 亿封,占比 38.71%,仍主导异常邮件流量,但环比略微下降 0.4%,钓鱼邮件总量 2.45 亿封,占比 12%。图 22025 年第二季度企业邮箱邮件类型分布CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告第二章 垃圾邮件及钓鱼邮件概况一、垃圾邮件概况分析(一)垃圾邮件整体概况2025 年第二季度,企业邮箱用户共收到的垃圾邮件总量 9.72 亿,总量与 2025 年第一季度接近持平,较 2024 年第二季度同比增长 6.81%。其中,境外垃圾邮件占比 61.5%,境内垃圾邮件占比 38.5%。图 32025 年第二季度境内外垃圾邮件攻击趋势(二)境内境外垃圾邮件趋势2025 年第二季度,在国内归属地的垃圾邮件攻击来源 TOP10 中,垃圾邮件主要来源集中在北京(3260.1 万封)、广东(2177.7 万封)、香港、浙江与上海等五个地区,显示一线城市依然是攻击跳板。CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 42025 年第二季度国内十大垃圾邮件攻击源头省份境外方面,俄罗斯(3341.4 万封)、美国(2983.3 万封)位列首位,远超其他国家,这可能与这两个国家广泛存在的开放 SMTP 服务、劫持主机和绕过黑名单机制相关。图 52025 年第二季度境外垃圾邮件攻击源来源 TOP10(三)TOP100 垃圾邮件行业分布分析如下图所示,教育行业类域名(43401.8 万封)、企业(5390.4 万)和 IT互联网(968.1 万)接收的垃圾邮件最多。CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 62025 年第二季度 TOP100 垃圾邮件域名行业分布分析二、钓鱼邮件概况分析(一)钓鱼邮件整体概况2025 年第二季度,钓鱼邮件攻击量为 2.15 亿,同比增长 50.35%,环比下降 12.24%。境外钓鱼邮件占比上升至 67.33%,表明跨境网络诈骗与渗透活动仍在加剧。图 72025 年第二季度境内外钓鱼邮件攻击趋势CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告(二)境内境外钓鱼邮件趋势2025 年第二季度,国内钓鱼邮件攻击源中,香港(1214.9 万封)遥遥领先,超第 2 名贵州(165.3 万)7.3 倍,这可能反映出境外攻击可能基于香港相对宽松的 IP 注册政策及跨境优势,通过香港为跳板进入大陆市场。图 82025 年第二季度国内十大钓鱼邮件攻击源头省份境外来源依旧由俄罗斯(3926.1 万)、日本(503.3 万)和美国(475.0 万)构成主力,进一步说明这些国家和地区具备大规模组织化的邮件投放能力。图 92025 年第二季度境外钓鱼邮件攻击来源 TOP10CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告(三)钓鱼邮件 TOP100 行业分布分析2025 年第二季度,教育行业接收钓鱼邮件 4887.2 万封(占 TOP100 域名99.8%),但仅发送 78.1 万封,凸显其“被渗透”而非“主动传播”角色。图 102025 年第二季度 TOP100 钓鱼邮件域名行业分布分析三、钓鱼邮件攻击案例(一)垃圾邮件主题榜 TOP10TOP10 主题中,“内训计划?”一类仿工作邮件标题的内容高居榜首(2158万封),反映出攻击者正在越来越多地利用“社会工程”方式诱导用户打开邮件。此外,“票”、“水单”、“差旅单”等词汇也频繁出现,表明攻击者通过仿冒常见商务场景提高点击率,值得重视。CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 112025 年第二季度热门垃圾邮件主题榜 TOP10(二)钓鱼邮件主题榜 TOP10钓鱼邮件主题均模仿日常通知或财务核实请求,借助高仿标题和冒用内部语气具有极强欺骗性,极易导致账号信息泄露。图 122025 年第二季度热门钓鱼邮件主题榜 TOP10(三)垃圾钓鱼邮件典型案例样本1.虚假发票类CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 13 虚假发票类垃圾钓鱼邮件案例样本-1图 14 虚假发票类垃圾钓鱼邮件案例样本-22.虚假快递包裹信息图 15 虚假快递包裹信息类垃圾钓鱼邮件案例样本3.系统迁移、变更类CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 16 系统迁移、变更类垃圾钓鱼邮件案例样本4.冒充订单或询盘信息图 17 冒充订单或询盘信息类垃圾钓鱼邮件案例样本-1图 18 冒充订单或询盘信息类垃圾钓鱼邮件案例样本-2图 19 冒充订单或询盘信息类垃圾钓鱼邮件案例样本-3CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 20 冒充订单或询盘信息类垃圾钓鱼邮件案例样本-45.在线文档类钓鱼图 21 在线文档类钓鱼邮件案例样本-16.引导添加 QQ 群类钓鱼图 22 引导添加 QQ 群类钓鱼邮件案例样本-1CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告第三章 域内安全威胁态势一、域内安全威胁现状2025 年第二季度,监测到 1,760 个企业邮箱账号被盗,攻击者利用这些被盗身份发起 18.8 万封域内钓鱼邮件,占钓鱼总量的 0.09%,平均每个被盗账号发送 107 封内部钓鱼邮件。域内钓鱼邮件因自带“信任链”,打开率和成功率显著提升,易形成“账号泄露信任劫持更大规模泄露”的恶性循环。图 23 2025 年第二季域内钓鱼邮件数量统计其中,域内钓鱼 TOP10 主题共涉及邮件 12,536 封,可归为三类:系统通知类、福利诱导类、工作流程类,高度渗透企业运营的办公场景。图 242025 年第二季域内钓鱼邮件主题榜 TOP10二、域内防护建议CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告域内钓鱼利用“内部账号被盗”伪装成同事/部门发信,结合 日常办公场景精准击破员工“内部=安全”的惯性认知,具有“高仿度高、渗透深、危害大”特点,其本质是滥用内部信任,防御需从“打破员工惯性认知”和“监测内部异常行为”切入,结合技术拦截与管理训练,构建纵深防护体系,如部署 CACTER 邮件安全网关,具有独家完整域内安全管控方案,针对性拦截域内异常发信行为以及域内钓鱼/垃圾/病毒邮件。第四章 暴力破解宏观态势一、全域破解攻击趋势(一)暴力破解情况2025 年第二季度,暴力破解共计被拦截 38.2 亿次,尽管较 2025 年第一季度(47.7 亿次)有所下降,但仍处于高位,表明企业邮箱账户持续面临爆破威胁。图 252023 年第四季度至 2025 年第二季度全域破解攻击趋势其中,全域被暴力破解成功 551.9 万次,较上一季度略升。结合总攻击量下降趋势,说明攻击者的爆破策略正在趋向精准化与有效性提升,或使用更高效密码库与智能脚本进行攻击。CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 262023 年第四季度至 2025 年第二季度全域暴力被破解成功次数(二)高危账号及被攻击账号域名分析2025 年第二季度,域名行业分析数据得出,教育行业依旧呈现双重脆弱性,高危账号占比 63.04%,被攻击域名占比 55.96%,由于其用户账号使用频繁、权限较分散,教育行业成为暴力破解主要目标。而企业账号被攻击域名占比升至 32.52%,呈现风险升级趋势,攻击者可能转向高价值商业目标,需警惕供应链攻击风险。图 272025 年第二季度高危账号 TOP100 域名行业分析CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告图 282025 年第二季度被攻击 TOP100 域名行业分析第五章 邮件安全解决方案及建议基于前三章对 2025 年第二季度邮件威胁态势的分析,本章将结合 CACTER邮件安全产品能力,针对性地提出防护方案建议。一、AI 驱动的新型邮件攻防态势与应对策略当前 AI 钓鱼攻击技术迭代迅猛 通过批量生成高度仿真内容动态进化,借助自然语言生成技术伪造合规语义,再结合多态混淆手段绕过传统检测机制。应对此类新型高级威胁,亟须部署具备更强检测与防御能力的解决方案。例如 CACTER 邮件大模型安全网关,突破传统检测瓶颈,深度融合大模型技术,凭借四大 AI 底层能力构建全维度智能防御体系,大幅提升钓鱼邮件识别、恶意内容分析与威胁拦截的精准度,其新增三大核心模块:高管保护模块针对企业核心人员构建专属防护屏障;AI URL 沙箱与二维码解析引擎联动,精准识别隐藏恶意链接;AI 统计报告模块支持管理员一键生成可视化数据报告并智能推荐防护策略,大幅提升运维效率。CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告二、强化域内钓鱼攻击防护域内钓鱼攻击具有“仿真度高、渗透性强、危害性大”的特点。一旦攻击成功,极易导致敏感信息泄露、重大经济损失及企业声誉受损,后果不堪设想。针对域内攻击的复杂性和高危害性,构建专属防护机制刻不容缓。CACTER 邮件安全网关提供了独家完整域内安全管控方案,为企业打造全链路防护体系研发域内发信行为检测模型,联动反垃圾引擎精准识别恶意邮件,针对性拦截域内异常发信行为及钓鱼、垃圾、病毒邮件。同时支持为域内邮件设置单独的反垃圾策略,以满足企业根据其特定需求。支持为域内邮件配置专属反垃圾策略,满足企业个性化需求;即便出现侥幸绕过的邮件,也能通过高级恶意威胁邮件事后处置机制实现闭环防护,确保全场景覆盖。CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告CACTER 邮件安全2025 年第二季度企业邮箱安全性研究报告

    发布时间2025-08-19 22页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 信息系统工程全国重点实验室:2025边缘指挥控制:网络信息时代指挥控制新范式蓝皮书(72页).pdf

    边缘指挥控制:网络信息时代指挥控制新范式i前言指挥控制(Command and Control,C2)的成效是战争胜负的决定因素,联合作战、全域作战的重心在于指挥控制,取得体系优势的关键也在于指挥控制.

    发布时间2025-08-19 72页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 全国网络安全标准化技术委员会:个人信息保护国家标准体系(2025版)(22页).pdf

    个人信息保护国家标准体系(个人信息保护国家标准体系(20252025 版)版)(征求意见稿)全国网络安全标准化技术委员会秘书处全国网络安全标准化技术委员会秘书处 2025 年年 8 月月 I 前 言.

    发布时间2025-08-19 22页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 卫星互联网行业系列:商业航天发射场工位数快速增长看好测试发射指挥监控系统以及加注及供气系统服务商-250818(21页).pdf

    敬请参阅报告结尾处的免责声明 东方财智 兴盛之源 行业研究 东兴证券股份有限公司证券研究报告 卫星互联网卫星互联网行业行业系列系列:商业航天发射场工商业航天发射场工位数快速增长,看好测试发射指挥监控.

    发布时间2025-08-19 21页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 江苏省未来网络创新研究院:2025 AI网络技术白皮书(122页).pdf

    2 0 2 5 A I 网 络 技 术 白 皮 书前 言人工智能(A I,A r t i f i c i a l I nt e l l i g e nc e)技术,尤其是大模型(L L M,L a r g e L a ng ua g eM o de l)技术的广泛应用,正驱动着 A I 与网络深度融合创新,成为产业变革的关键力量。据 I D C 报告,2024 年下半年,中国智算基础设施服务市场规模达 124.1亿元,2028 年中国智能算力规模预计将达到 2781.9 E F L O P S,市场正从百亿爆发期 快 速 迈 向 千 亿 成 长 期。A I 的 广 泛 应 用 使 得 网 络 基 础 设 施 面 临 着 超 高 带 宽、超低延迟、确定性传输、端网协同及网络智能化等新需求,网络在架构、协议、运维和成本等方面遭遇严峻挑战。面对这些新需求与挑战,本白皮书将 A I 网络划分为“网络赋能 A I(N e t w o r kf o r A I)”和“A I 赋能网络(A I f o r N e t w o r k)”两大方向。在 A I 网络的发展框架中,“网络赋能 A I(N e t w o r k f o r A I)”以满足 A I 技术与应用 的网络新需求为导向,通过纵向扩展(Sc a l e U p)、横向扩展(Sc a l e O ut)以及确定性网络(D e t N e t,D e t e r m i ni s t i c N e t w o r k)等 前 沿 技 术 突 破,为 A I 训 练 集 群 的 高 效 运 转、推 理 服 务的 稳 定 输 出 以 及 分 布 式 A I 应 用 的 广 泛 落 地 提 供 坚 实 保 障,让 网 络 真 正 成 为 A I创新发展的 坚实后盾。“A I 赋能网络(A I f o r N e t w o r k)”则聚焦借助 A I 技术提升网络自身的智能化水平,其核心目标是实现网络的智能自治,通过意图驱动网络(I D N,I nt e nt-D r i v e n N e t w o r k)、数字孪生网络(D T N,D i g i t a l T w i n N e t w o r k)、智能网络大模型等技术的深度应用,简化网络管理操作流程、提升网络运行效率、强化网络防御能力,推动网络从传统运维向自主智能方向加速演进。“N e t w o r k f o r A I”和“A I f o r N e t w o r k”双向赋能和协同创新,不仅是突破网络技 术瓶颈的 关键,也 是推动 A I 规模 化应用的 引擎,驱 动着网络、算力、数据等产业要素融合升级,更将重塑金融、制造、医疗等垂直行业的数字基础设施形态,推动智能社会建设进入快车道。2 0 2 5 A I 网 络 技 术 白 皮 书在此背景下,江苏省未来网络创新研究院联合硬件厂商、软件厂商、服务商和行 业应用企 业等产业 链伙伴共 同编写 了本白皮 书,旨在 通过系统 梳理 A I 网络技术 的演进、现状与展 望,凝聚 产业 共识,助力 网络与 A I 技术 深度 融合、产业生态健康发展,为智能时代的网络基础设施建设提供系统性指导与前瞻性思考。2 0 2 5 A I 网 络 技 术 白 皮 书编 写 委 员 会专家指导单位:北京邮电大学、紫金山实验室主编单位:江苏省未来网络创新研究院参编单位:中国铁塔股份有限公司、天翼云科技有限公司、奇异摩尔(上海)半导体技术有限公司、无锡沐创集成电路设计有限公司、益思芯科技(上海)有限公司、深圳第一线通信有限公司、江苏致网科技有限公司、苏州衡天信息科技有限公司媒体发布:究模智、SD N L A B2 0 2 5 A I 网 络 技 术 白 皮 书目 录第 1 章 A I 与网络的融合演进.1第一部分 N e t w or k f or A I:面向 A I 的新型网络基 础设施第 2 章 A I 驱动下的网络架构变革与性能演进.42.1 A I 驱 动 下 的 新 型 场 景.42.2 A I 网 络 需 求.52.3 A I 集 群 网 络 拓 扑.72.3.1 F a t-T r e e 拓 扑 结 构.72.3.2 D r a g o n f l y 拓 扑 结 构.9第 3 章 面向 A I 的高性能网络关键技术.123.1 技 术 演 进 趋 势 与 分 类 体 系.1 23.1.1 技 术 演 进 趋 势.1 23.1.2 分 类 体 系 概 览.1 33.2 S c a l e U p(纵 向 扩 展)技 术.1 43.2.1 高 速 互 连 技 术.1 43.2.2 新 型 互 连 技 术.1 93.3 S c a l e O u t(横 向 扩 展)技 术.2 53.3.1 I n f i n i B a n d 技 术.2 53.3.2 R o C E v 2 技 术.2 93.3.3 U E C 传 输 协 议.3 33.4 前 沿 突 破 技 术.3 63.4.1 确 定 性 广 域 网 技 术.3 73.4.2 超 节 点 计 算 架 构.4 33.4.3 6 G 与 A I 网 络 协 同.4 7第 4 章 N e t w or k f or A I 典型应用实践.494.1 移 动 云 新 型 智 算 网 络 架 构.4 94.2 天 翼 云 智 算 项 目.5 12 0 2 5 A I 网 络 技 术 白 皮 书4.3 阿 里 云 H P N 7.0 新 型 智 算 网 络.5 34.4 奇 异 摩 尔 A I N e t w o r k i n g 全 栈 解 决 方 案.5 54.5 第 一 线 助 力 教 育 企 业 私 域 A I 落 地 方 案.5 64.6 微 众 银 行 金 融 级 智 算 A I 网 络 建 设 与 实 践 方 案.5 84.7 益 思 芯 创 新 智 能 网 卡 解 决 方 案.5 9第 5 章 N e t w or k f or A I 未来发展及展望.605.1 未 来 发 展 趋 势.6 05.2 未 来 展 望 及 建 议.6 1第二部分 A I f o r N e t w o r k:A I 赋能的网络智 能化升级第 6 章 A I 驱动的网络智能化发展.636.1 网 络 管 理 的 挑 战.6 36.2 网 络 智 能 化 演 进 体 系.6 46.3 网 络 智 能 化 升 级 流 程.6 66.3.1 全 域 感 知.6 76.3.2 智 能 分 析.6 86.3.3 自 主 决 策.6 96.3.4 执 行 与 保 障.7 0第 7 章 A I 赋能网络的关键技术.727.1 意 图 驱 动 网 络.7 27.1.1 意 图 驱 动 网 络 的 定 义 和 架 构.7 27.1.2 意 图 驱 动 网 络 的 关 键 技 术.7 47.2 数 字 孪 生 网 络.7 87.2.1 数 字 孪 生 网 络 的 定 义 和 架 构.7 87.2.2 数 字 孪 生 网 络 的 关 键 技 术.8 27.2.3 基 于 D T N 实 现 意 图 驱 动 的 网 络.8 47.3 智 能 网 络 大 模 型.8 67.3.1 智 能 网 络 大 模 型 的 核 心 应 用.8 67.3.2 多 智 能 体(M u l t i-A g e n t)群 智 协 同.8 82 0 2 5 A I 网 络 技 术 白 皮 书7.3.3 A g e n t i c S O A R 智 能 化 网 络 安 全 编 排 架 构.9 07.4 联 邦 学 习.9 27.4.1 联 邦 学 习 的 定 义.9 27.4.2 联 邦 学 习 的 分 类 与 关 键 技 术.9 4第 8 章 A I f or N e t w or k 典型应用实践.968.1 中 国 联 通 A I 智 能 体 助 力 地 铁 无 线 网 优 创 新.9 68.2 中 国 移 动 九 天 大 模 型 助 力 无 线 网 络 优 化 智 能 升 级.9 78.3 中 国 铁 塔 网 络 智 能 化 运 维 与 优 化 平 台.9 88.4 华 为 星 河 A I 网 络 解 决 方 案.9 98.5 中 兴 通 讯 A I R N e t 自 智 网 络 高 阶 演 进 解 决 方 案.1 0 18.6 京 东 云 J o y O p s 智 能 运 维.1 0 2第 9 章 A I f or N e t w or k 的挑战与未来趋势.1049.1 未 来 发 展 趋 势.1 0 49.2 战 略 建 议 与 展 望.1 0 5第三部分 未来展望第 10 章 A I 网络发展十大趋势.108参考文献.111缩略语.1142 0 2 5 A I 网 络 技 术 白 皮 书1第 1 章 A I 与 网 络 的 融 合 演 进A I 与 网 络 的 融 合 经 历 了 初 步 探 索、快 速 发 展、深 度 融 合 的 演 进 过 程,每 个阶段都有其独特的技术特征和产业标志,构成了 A I 网络技术演进的完整脉络。第一阶段:初 步探索期A I 与 网 络 的 融 合 始 于 深 度 学 习(D L,D e e p L e a r ni ng)的 突 破 性 进 展。2012年,深 度 学 习 先 驱、A l e x N e t 之 父 A l e x K r i z he v s ky 及 其 团 队 使 用 2 块 G T X 580,耗时 5-6 天训练的 A l e x N e t 模型在 I m a g e N e t 竞赛中夺得冠军,这一事件标志着深度学习在图像分类领域的重大突破,开启了深度学习快速发展的新篇章,也首次显性暴露出单机算力瓶颈,激发了对分布式训练网络(D T N,D i s t r i but e d T r a i ni ngN e t w o r k)的 迫 切 需 求。2012 年 左 右,谷 歌 B 4 网 络 投 入 使 用,推 动 了 网 络 可 编程化的实践。2016 年,A T&T 发布 D o m a i n 2.0 计划,进一步加速了软件定义网络的规模化落地,为后续 A I 驱动的智能网络埋下伏笔。该阶段以 A I 算法创新为核心,网络主要承担着基础数据传输功能。主要技术特征表现为:A I 侧:聚 焦 C V/N L P(C o m put e r V i s i o n/N a t ur a l L a ng ua g e P r o c e s s i n g)领域 的 模 型 革新(如 A l e x N e t、R e s N e t),模 型 规模 较 小,训 练 依 赖单 机 或 小 规 模G P U(G r a phi c s P r o c e s s i ng U ni t)集群;网络侧:仍以传统 T C P/I P(T r a ns m i s s i o n C o nt r o l P r o t o c o l/I nt e r ne t P r o t o c o l)协议为主,数据中心采用胖树架构(F a t-T r e e),带宽普遍10G bps,远程直接内存访问(R D M A,R e m o t e D i r e c t M e m o r y A c c e s s)技术初步尝试但尚未普及。关键 挑战:网 络性能 严重制约 A I 发展,分布式 训练中 参数同步 耗时占 比极高,时 延 问 题 和 带 宽 不 足 导 致 训 练 效 率 低 下;A I 技 术 尚 未 应 用 于 网 络 优 化,运维完全依赖人工。2 0 2 5 A I 网 络 技 术 白 皮 书2第二阶段:快 速发展期大模型时代的到来驱动 A I 与网络进入协同升级的快车道。2017 年由 G o o g l e团队提出的 T r a ns f o r m e r 是指一种基于“自注意力机制”(Se l f-A t t e nt i o n)的神经网 络 架 构,如 今 在 A I 领 域 得 到 广 泛 应 用,随 后 G P T、B E R T 等 模 型 参 数 量 突 破亿 级,千 卡 协 作 训 练 需 求 倒 逼 网 络 低 时 延 与 高 吞 吐 能 力 跃 升。2020 年,英 伟 达收 购 M e l l a no x,整合 G P U 算 力与 I nf i ni B a nd 网 络技 术,端到 端 A I 架 构奠 定了 超算网 络的新标 准,也迈 入了 A I 与网 络快速融 合发展的 新阶段。该阶段 的技术特征呈现协同发展趋势,主要表现为:网 络 赋 能 A I 发 展:数 据 中 心 向 高 扩 展 性 多 级 交 换 网 络 架 构 演 进,100G/200G 带宽普及,R D M A 规模化部署将时延压缩至微秒级;确定性网络和无损算法保障 A I 集群通信质量。A I 赋能网络智能化:A I 技术开始应用于智能流量调度、网络故障预测与定位、资源分配等场景,初步实现部分运维自动化,提升网络管理效率和韧性。关键 挑战:超大 规模场景 成为关 键制约因 素。网 络性能难 以适配 A I 规模 扩张 需 求,万 卡 集 群 中 通 信 效 率 大 幅 下 降,影 响 训 练 进 程 推 进;A I 对 网 络 的 智 能化赋能范围有限,面对复杂动态的网络环境,仍难实现全面高效的自动化管理与优化。第三阶段:深 度融合期A I 与网 络技术已 迈入双 向赋能 的闭环发 展阶段,“A I 网络”正逐 步确立为核 心 技 术 范 式。2022 年,C ha t G P T 的 全 球 爆 发 成 为 重 要 转 折 点,千 亿 参 数 规 模的大模型对超低时延响应速度的刚性需求,直接驱动了低时延推理网络的加速建设。在此背景下,国内外云服务企业及大型科技公司纷纷加大投入,布局专用智算中 心。国家 层面亦高 度重视,通过系 统性规划 推进 A I 智算 中心建设,以此支2 0 2 5 A I 网 络 技 术 白 皮 书3撑大模型训练与推理过程中产生的海量算力需求,为人工智能技术的持续突破筑牢基础设施根基。这一阶段的 A I 网络呈现如下特征:服务于 A I 的网络技术:新型网络架构和互连技术不断涌现,以满足极致性能需求。例如,英伟达的 I nf i ni B a nd 网络凭借超低时延和高吞吐性能,成为大规模 A I 训练集群的首选;以超以太网联盟(U E C,U l t r a E t he r ne t C o ns o r t i um)为代表的开放组织也在积极推动以太网技术革新,致力于在以太网基础上实现媲美I B 的无损、低时延特性,为行业提供更灵活的技术路径选择。网络 智能化技 术:意图 驱动网 络 逐步走向 成熟,数 字孪生网 络可实 现网络状态的精准感知与全生命周期管理,智能运维应用开始渗透网络全场景,实现网络配置、优化、故障处理的闭环自治。关键 挑战:800G/1.6T 的网 络互连 在物理性 能和成 本上难 以满足 万亿参 数模型的训练需求;数字孪生网络因数据不互通,影响了对网络状态的准确判断;网络自 主管理能 力跟不上 A I 流量 的突然增 长;智能 运维的决 策过程 不透明,导致出现重大故障时还得依靠人工解决。A I 与 网 络 的 协 同 发 展 呈 现 出“需 求 牵 引、技 术 反 哺、生 态 融 合”的 螺 旋 上升态 势。首先,需求牵 引成为技 术突破 的原始动 力。随着 A I 模型 参数从百 万级飙升至万亿规模,对网络性能提出了极致要求,推动网络带宽在十年间实现近百倍增长,时延从毫秒级压缩至微秒级,甚至在工业控制等确定性场景下达成亚微秒抖动,直接驱动网络性能实现跨越式升级。其次,技术反哺形成产业发展的正向循环。在需求驱动下诞生的意图驱动网络、智能运维等网络智能化技术,反过来为网络提供强大支撑。不仅显著提升了网络资源利用率与智能化水平,更实现了运维成本的大幅降低,形成技术与产业相互促进的良性循环。最后,生态融合构 筑 智 能 时 代 的 底 层 基 石。跨 域 生 态 的 深 度 融 合 与 标 准 体 系 的 持 续 完 善,正 为A I 网络产业搭建起坚实的技术基础,为整个生态的可持续发展提供体系保障。2 0 2 5 A I 网 络 技 术 白 皮 书4第 一 部 分 N e t w o r k f o r A I:面 向 A I 的 新 型 网络 基 础 设 施第 2 章 A I 驱 动 下 的 网 络 架 构 变 革 与 性 能 演 进本章 深入探讨 A I 工作 负载对网 络基础 设施提出 的新型 需求,分 析超大规 模训练、高性能推理以及边缘场景下的网络架构演进方向,为后续技术探讨奠定基础。2.1 A I 驱动下的新 型场景随着 A I 技术 向万亿参 数时代 迈进,其 应用场 景正从集 中式训练 向分布 式推理与边缘协同加速演进。这一进程不仅依赖算法与硬件的突破,更需网络架构的深度适配。(一)训练场 景A I 模 型 训 练 通 常 涉 及 对 海 量 数 据 集 进 行 迭 代 式 学 习,以 优 化 模 型 参 数。大型语言模型等超大规模 A I 训练需要数千甚至数万个 G P U 协同工作,训练网络中存 在巨 大的“东 西向”流 量,即 G P U 之 间频 繁的 数 据交 换 和模 型参 数 同步。任何微小的网络瓶颈或数据包丢失都可能导致训练时间显著延长,甚至影响模型精度,为了确保训练效率和模型收敛速度,网络必须提供极致的性能。(二)推理场 景A I 推 理 是 将 训 练 完 成 的 模 型 应 用 于 实 际 场 景,以 生 成 预 测 或 执 行 决 策 的 过程。与训练不同,推理更侧重于快速响应和高效处理“南北向”流量,即用户请求与 A I 服务 之间的交 互。推理 场景对网 络的需 求因应用 类型而异,但普遍 要求2 0 2 5 A I 网 络 技 术 白 皮 书5低延迟以提供流畅的用户体验。推理工作负载可能部署在数据中心、云端或靠近用户的边缘设备上,需要网络能够灵活、高效地连接各种终端用户和 A I 服务。(三)边缘场 景边缘 A I 是将 A I 能力下沉到数据源头附近,例如智能摄像头、工业传感器等设备上。这种部署模式旨在减少数据传输到中心云的延迟和带宽消耗,同时提高数据隐私和安全性。边缘 A I 的兴起使得网络不再仅仅是数据传输的通道,更是A I 计算的延伸。边缘网络面临的挑战包括资源受限、连接多样化(如 W i-F i、5G/6G、L o R a W A N 等)以及复杂的部署环境。2.2 A I 网络需求在 A I 持续 向更智能、更泛 在的方向 发展的 过程中,网络已然 成为串 联各种应用场景的核心纽带。只有不断突破网络架构的技术壁垒,实现网络与 A I 算法、算力 基础设施 等的深度 融合,才 能充分 释放 A I 在各 领域的潜 力。以下 是超大规模 A I 网络的核心需求:(一)高带宽 与低延迟A I 网 络 中,计 算 节 点 需 频 繁 交 换 数 据,对 网 络 带 宽 需 求 呈 指 数 级 增 长。同时,通信延迟也会直接影响计算资源利用率:超高带宽:A I 模型训练涉及海量数据的处理和传输,如百万亿参数级别的深度学习模型,其训练过程中产生的数据量极为庞大。超高带宽的网络能够确保这些数据在计算节点之间高效、快速地传输,避免因带宽不足导致的传输瓶颈,从而提升整体训练效率。超低延迟:A I 应用,特别是实时推理任务,对网络的响应速度有极高要求。超低延迟的网络能够确保推理指令在极短时间内得到执行,提升用户体验和2 0 2 5 A I 网 络 技 术 白 皮 书6系统 实时性。此外,在 A I 训练 过程中,超低延迟 也有助于 减少通 信开销,提高计算资源的利用率。(二)高可靠 性与稳定性A I 网 络 的 高 可 靠 性 与 稳 定 性 是 确 保 业 务 连 续 性 和 计 算 效 率 的 关 键 因 素,网络故障或性能波动可能对训练任务、实时推理等造成严重影响,因此需要:无损传输:在 A I 训练过程中,数据包的丢失会导致模型训练中断或重新计 算,严 重 影 响 训 练 效 率 和 结 果 准 确 性。A I 网 络 需 要 实 现 无 损 传 输,通 过 智 能拥塞控制和流量调度机制,减少丢包和重传,保障数据完整性和一致性。可靠性与稳定性:A I 网络应具备动态负载均衡能力,根据实时流量和网络状态,智能分配带宽资源,避免网络拥塞和性能下降。对于对网络实时性要求极高的 A I 应用而言,A I 网络需要提供亚毫秒级的故障检测和恢复能力,确保业务连续性。(三)网络拓 扑与通信模式A I 模 型 和 数 据 规 模 持 续 爆 炸 性 增 长,驱 动 计 算 集 群 从 数 千 卡 向 数 万、数 十万卡扩展,网络拓扑必须具备灵活的扩展能力,并且与训练框架、并行策略深度协同,优化通信效率:灵活可扩展的拓扑:网络需要支持灵活、高效的拓扑结构(如 F a t-T r e e、D r a g o nf l y 等),并能根据不同的通信模式动态优化路径,最大化通信效率,减少拥塞。适 配 A I 通 信 模 式:针 对 A I 训 练 中 常 见 的 A l l R e duc e、A l l G a t he r、R e duc e Sc a t t e r 等集合通信模式,在硬件与协议层面进行专项优化。(四)数据安全与 Q o S2 0 2 5 A I 网 络 技 术 白 皮 书7超大 规模 A I 集群 通常同时 运行预 训练、微 调、推 理等多个 任务,需 通过资源隔离与服务质量(Q o S,Q ua l i t y o f Se r v i c e)机制避免相互干扰:资源 隔离:在 大模 型训推过 程中,数据 可能 会包含商 业机密、用 户隐私等敏感信息。网络必须提供强大的安全保障,包括数据传输加密、严格的访问控制、网络切片/虚拟化隔离(确保不同租户或任务互不干扰)等。流量 优先级:精准 识别并优 先处理同 步报文、控制信 令 等 关键 流量,应用 优 先 级 队 列、带 宽 预 留 等 Q o S 策 略 和 动 态 流 量 工 程,防 止 拥 塞,保 障 可 预 测的延迟和低抖动。同时需兼顾东西向与南北向流量的高效协同。总体而言,A I 网络的需求是高带宽、低延迟、高可靠、可扩展的综合体现,需从拓扑设计、协议优化、硬件加速、容错机制等多维度协同,最终目标是让网络实现高效互联,确保计算资源的利用率最大化,同时支撑模型规模和集群规模的持续突破。2.3 A I 集群网络拓扑A I 集 群 网 络 是 支 撑 大 规 模 人 工 智 能 训 练 和 推 理 任 务 的 核 心 基 础 设 施,其 拓扑设计直接关系到 G P U 等计算单元之间的通信效率,进而影响整体性能。2.3.1 F a t-T r e e 拓 扑 结 构F a t-T r e e 网络架构由于其高效的路由设计、良好的可扩展性及方便管理等优势,成 为大 模 型训 练 常用 网络 架 构。对 于中 小型 规 模的 G P U 集 群网 络,通 常采用 Spi ne-L e a f 两 层 架 构。对 于 较 大 规 模 的 G P U 集 群 则 使 用 三 层 胖 树(C o r e-Spi ne-L e a f)进行扩展组网,不过由于网络的层次增加,其转发跳数与时延也会相应增加。2 0 2 5 A I 网 络 技 术 白 皮 书8图 1 二 层 F a t-T r e e 架 构图 2 三 层 F a t-T r e e 架 构G P U 服务器 的接入方 式分为单 轨与多轨两 种。单轨 接入方式 是一台 G P U 服务 器 上 的 网 卡 全 部 汇 聚 于 同 一 台 L e a f 交 换 机,集 群 通 信 效 率 偏 低。多 轨 接 入 方式是将 G P U 服务器上的 N 张网卡各自接入 N 台 L e a f 交换机,集群通信效率较高。不过,若 L e a f 交换机出现故障,多轨方式下受影响的 G P U 服务器数量会比单轨方式更多。2 0 2 5 A I 网 络 技 术 白 皮 书9F a t-T r e e 架构的关键点在于交换机的上下行带宽的设计,保持 1:1 的无收敛配置,确保了网络中的任何流量路径都不会成为瓶颈,从而实现全带宽无阻塞通信。F a t-T r e e 的优势:无 阻 塞 通 信:F a t-T r e e 通 过 在 网 络 高层 提 供 足 够 的 带 宽,消 除了 传 统 树形拓扑中的带宽收敛问题,使得任意两个节点之间都可以实现线速通信,避免了网络拥塞。高 可 扩 展 性:F a t-T r e e 可 以 通 过 增 加交 换 机 和 链 路 的 数 量 来 轻松 扩 展 网络规模,支持数千甚至上万个计算节点的互联,满足大规模 A I 集群的扩展需求。多路 径冗余:任意两点 之间存 在多条等 价路径,当某条 链路或设 备发生故障时,流量可以快速切换到其他可用路径,提高了网络的可靠性和容错性。高 吞 吐 量 和 低延 迟:由 于 无 阻 塞 特 性 和多 路 径 选 择,F a t-T r e e 能 够 提 供极高 的数据吞 吐量和极 低的通信 延迟,这对于 A I 训练 中频繁的 大规模数 据交换至关重要。F a t-T r e e 架 构 作 为 当前 A I 集 群 网 络 领域 应 用 最 为 普 遍 的 主流 拓 扑 结 构,凭借其卓越的可扩展性与高效性,已成为众多大型项目优化部署与网络设计的基础架构。例如,字节 M e g a Sc a l e 集群采用三层类 C L O S 拓扑,成功连接万卡级 G P U;阿里 H P N 7.0 通过两 层双平面架 构,实现万 卡级无拥 塞互连。然 而,F a t-T r e e 架构也存在一定缺点,它需要大量的交换机和链路,成本较高,特别是对于超大规模集群。2.3.2 D r a g o n f l y 拓 扑 结 构2 0 2 5 A I 网 络 技 术 白 皮 书1 0D r a g o nf l y 拓扑是一种为高性能计算优化的网络架构,通过减少网络直径来降低 通 信 延 迟。与 F a t-T r e e 的 对 称 设 计 不 同,D r a g o nf l y 采 用 分 组 全 连 接 理 念,更适应跨机柜、跨数据中心的 A I 训练场景。D r a g o nf l y 拓扑 由多个 组(G r o up)组 成,组 间和组内 均建立 全连接 关系。每组间使用 1 条或多条链路连接,组内的每个网络节点都与组内其他网络节点直接互连,且可以同时连接到其他组和计算节点。图 3 D r a g o n f l y 架 构D r a g o nf l y 拓 扑 中 每 个 网 络 节 点 与 同 组 内 其 他 网 络 节 点 之 间 的 带 宽 总 和 用 a表示,每个网络节点与计算节点之间的带宽总和用 p 表示,每个网络节点与其他组之间的带宽总和用 h 表示。为了更好地实现负载均衡,建议满足 a=2p=2h。若使用其他值,则需满足 a 2h 且 2p2h。D r a g o nf l y 的优势:高可扩展性:D r a g o nf l y 通过分层和全局 互连的设计,能够以较低的成 本扩 展 到 非 常 大 的 规 模,支 持 构 建 拥 有 数 万 甚 至 数 十 万 个 计 算 节 点 的 超 大 规 模 A I集群。2 0 2 5 A I 网 络 技 术 白 皮 书1 1 低 成 本 优 势:相 较 于 F a t-T r e e 等 需 要 大 量 高 端 口 密 度 交 换 机 的 拓 扑,D r a g o nf l y 通过减少全局链路的数量,显著降低了布线复杂度和网络设备的成本。网络直径小:尽管是分层结构,但 D r a g o nf l y 的平均跳数相对较低,有助于保持较低的通信延迟。谷歌 数据 中心分 布式 交换 架构 A qui l a 采用 了 D r a g o nf l y 拓扑,其 中核心 创新在于:(1)全局链路优化:每个 Sw i t c h 通过少量高速链路(通常为光连接)与其他组的 Sw i t c h 直连;(2)最小化直径:确保任意两节点间最多 3 跳,组内 1跳 全局 1 跳 目标组内 1 跳;(3)虚拟通道:支持 8 个虚拟通道单独流控,避免队头阻塞。然而,D r a g o nf l y 在 A I 计算网络中的应 用相对有限,主要因为其软 件成熟度不足且运维复杂度高,在流量突发情况下可能面临拥塞挑战。2 0 2 5 A I 网 络 技 术 白 皮 书1 2第 3 章 面 向 A I 的 高 性 能 网 络 关 键 技 术本章 系统阐述 支撑 A I 创新 与规模化 应用的 高性能网 络关键 技术,全面 剖析各项技术的原理、最新进展及创新实践,为构建新一代智算融合网络提供技术指南。3.1 技术演进 趋势与分类体系3.1.1 技 术 演 进 趋 势A I 高性能网络的演进趋势主要体现在以下几个方面:(1)从通用网络向 A I 网络演进:传统网络主要面向通用计算和存储流量设计,其架构和协议难以完全满足 A I 训练和推理的极端性能需求。A I 工作负载的特 点 如 大 规 模 集 合 通 信、高 突 发 性 流 量 和 对 时 延 抖 动 的 敏 感 性,促 使 网 络 向 A I专用 化方向发 展,包括 采用更适 合 A I 流量 特性的网 络拓扑、优化传输 协议、以及 引 入 更 精 细 的 拥 塞 控 制 机 制。A I 网 络 将 成 为 智 算 中 心 的 核 心 基 础 设 施,提 供端到端的性能保障。(2)从硬件定义网络向软件定义网络与可编程网络演进:随着 A I 应用场景的日益复杂和动态变化,传统网络难以快速响应业务需求。SD N 和可编程网络技术为 A I 高性 能网络提 供了更大 的灵活性 和可控 性。通过 集中式控 制器对网 络资源进行统一管理和调度,可以实现网络路径的动态优化、流量的智能调度、以及网络资源的弹性伸缩。(3)从尽力而为向无损确定性保障演进:A I 训推对网络的服务质量有严格要 求,任 何 性 能 波 动 都 可 能 导 致 任 务 失 败 或 效 率 低 下。A I 高 性 能 网 络 正 在 从 传统的尽力而为向无损确定性演进。这包括对 A I 流量进行优先级划分、带宽预留、以及精细化的拥塞管理。例如,通过优先级流控制(P F C,P r i o r i t y F l o w C o nt r o l)2 0 2 5 A I 网 络 技 术 白 皮 书1 3和显式拥塞通知(E C N,E x pl i c i t C o ng e s t i o n N o t i f i c a t i o n)等机制,确保 A I 训练流量在网络拥塞时仍能获得优先传输,降低丢包率和时延抖动,实现无损的数据传输,为 A I 任务提供稳定可靠的网络环境。(4)从单一互联技术向多技术融合演进:为了满足 A I 工作负载对带宽和时延 的 极 致 要 求,A I 高 性 能 网 络 不 再 局 限 于 单 一 的 互 联 技 术,而 是 趋 向 于 多 种 技术的融合,Sc a l e U p(如 N V L i nk、U A L i nk)、Sc a l e O ut(如 I nf i ni B a nd、R o C E v 2)技术正在从独立走向协同应用。不同技术在成本、性能和生态方面各有优势,通过融合应用可以构建出更具性价比和灵活性的 A I 网络解决方案。3.1.2 分 类 体 系 概 览A I 高 性 能 网 络 的 技 术 可 以 从 不 同 维 度 进 行 分 类,以 便 更 好 地 理 解 其 构 成 和功能。本章将主要从以下几个核心维度进行分类和阐述:Sc a l e U p 技术:这类技术主要关注单个计算节点内部或紧密耦合节点间的性能 提 升,通 过优 化 节 点 内/邻 近 节 点 间 的数 据 传 输 效 率,实 现 计 算密 度 的 指 数 级增长。其核心目标在于突破单机算力瓶颈,为集群提供超高速、低延迟的内部通信能力。典型的技术包括 N V L i nk、U A L i nk 协议等。Sc a l e O ut 技术:这类技术主要关注大规模计算节点的网络互连,通过优化集群拓扑、路由算法和传输协议,构建支持数万节点协同训练的分布式计算平台。其核 心挑 战在于 平衡 带宽、延迟、可靠 性与 成本,典型 的技术 包括 I nf i ni B a nd、R o C E v 2 等。前沿 突破技术:这类 技术代表 了 A I 高性 能网络领 域的最 新探索方 向和突 破性 进 展,不 局 限 于 Sc a l e U p 或 Sc a l e O ut 的 框 架,而 是 着 眼 于 未 来 网 络 架 构 的 革新、跨领域技 术的融合 以及全新 通信范 式的构建,为 A I 的未 来发展提 供强大的网络基础设施支撑。2 0 2 5 A I 网 络 技 术 白 皮 书1 43.2 S c al e U p(纵向扩展)技术3.2.1 高 速 互 连 技 术3.2.1.1 N V L i n kN V L i nk 是英伟达开发的专有高速互连技术,旨在解决传统 P C I e(P e r i phe r a lC o m po ne nt I nt e r c o nne c t E x pr e s s)总 线 在 多 G P U 系 统 中 的 带 宽 瓶 颈 和 延 迟 问 题,从而实现 G P U 之间以及 G P U 与 C P U 之间的高效数据传输和协同工作。(一)N V L i n k 的起源与演进N V L i nk 最初于 2016 年与英伟达 P a s c a l 架构的 P 100 G P U 一同发布,旨在为G P U 提供比 P C I e 更高的带宽和更低的延迟。此后,伴随着英伟达 G P U 架构的每一次迭代,N V L i nk 也在不断演进,每一代都带来了带宽和性能的显著提升。表 1 N V L i nk 的演进(二)N V L i n k 的技术特点N V L i nk 采用多条高速差分信号通道组成链路的方式进行点对点通信。每 个N V L i nk 链路都提供双向数据传输能力,并具备极高的带宽。具体来看,从 P 10 02 0 2 5 A I 网 络 技 术 白 皮 书1 5的 160G B/s 迭 代 至 B 200 的 1.8T B/s,单 卡 带 宽 年 复 合 增 长 率 超 60%。N V L i nk 支持 G P U 之间直接进行内存访问,即一个 G P U 可以直接读写另一个 G P U 的显存,无 需 经过 C P U 作 为 中介,极 大 提高 了 数 据 传输 效 率,降 低 了通 信 延 迟。此 外,N V L i nk 支持多通道通信,允许同时进行多个数据传输会话。N V L i nk 不仅可以连接单个服务器内的多个 G P U,还可以通过 N V L i nk 交换机(如 N V Sw i t c h)连接更多 G P U,构 建 更 大 规 模 的 G P U 集 群,实 现 跨 服 务 器 的 G P U 互 联,为 超 大 规 模A I 训练提供强大的扩展能力。(三)N V S w i t c h 全互联架构N V Sw i t c h 是在 N V L i nk 基础上发展起来的,它作为一个高速交换机,连接多个 N V L i nk,可 在 单 一 机 架 与 多 机 架 间 以 N V L i nk 全 速 提 供 G P U 完 全 通 信。N V Sw i t c h 支 持 完 全 无 阻 塞 的 全 互 联 G P U 系 统,通 过 提 供 更 多 的 N V L i nk 接 口,实现更大规模的 G P U 互联,从而构建更加强大的计算集群。例如,英伟达 N V L i nk5Sw i t c h 具有 144 个 N V L i nk 端口,无阻塞交换容量为 14.4T B/s,能够支持多达 576个 完 全 互 联 的 G P U。N V Sw i t c h 的 出 现,使 得 A I 和 H P C 工 作 负 载 能 够 更 高 效 地利用多 G P U 的并行计算能力。图 4 N V Sw i t c h A l l-t o-A l l 交换机架构2 0 2 5 A I 网 络 技 术 白 皮 书1 6N V Sw i t c h 的核心优势在于其能 够构建全互联的 G P U 通信拓扑,所有连接 到它的 G P U 都可以直接与其他任何 G P U 进行通信,无需经过中间节点或 C P U。这对 于集 合通 信 至关 重 要,它确 保 了所 有 G P U 之 间的 数据 交 换都 能 以最 高效 率 进行,避免了传统树形拓扑可能导致的收敛瓶颈。N V Sw i t c h 内部 集成了 大量 的 N V L i nk 端口,每个 端口 都提供 N V L i nk 级别 的高带宽和低延迟。例如,第三代 N V Sw i t c h 系统架构中(如 D G X G B 200),G P U之 间 点 对 点 的 通 信 带 宽 可 高 达 900G B/s,这 使 得 N V Sw i t c h 能 够 有 效 支 撑 大 规 模A I 模型训练中海量的梯度同步和数据传输。除了 N V L i nk 端口,最新的 N V Sw i t c h还集成了对 400G bps 以太网和 I nf i ni B a nd 连接的物理层支持。这意味着 N V Sw i t c h不 仅可 以作 为 G P U 内 部互 联的 桥 梁,还 可以 作为 连 接外 部 网络 的接 口,从 而 实现 G P U 集群与数据中心网络的无缝融合,为构建更灵活、更强大的 A I 基础设施提供了可能。(四)N V L i n k F u s i o n 开放互连技术2025 年 5 月,英伟达推出了 N V L i nk F us i o n 开放互连技术方案,允许第三方厂商(如高通、富士通等)的定制 C P U 或 A I 加速器通过 N V L i nk 协议与英伟达G P U/C P U(如 G r a c e、B l a c kw e l l 系列)实现高速互联,支持单端口最高 900G B/s的带宽,并集成 N V Sw i t c h、Spe c t r um-X 交换机等组件构建机架级 A I 工厂。该技术通过开放生态策略,既保留了 N V L i nk 的低延迟优势(跨节点延迟 2 微秒),又支持异构计算(如 A SI C 与 G P U 协同)。3.2.1.2 U A L i n kU A L i nk(U l t r a A c c e l e r a t o r L i nk)是 A M D、亚马逊 A W S、谷歌、英特尔、M e t a、微软等公司共同发起的一项开放式互连标准,旨在为 A I 加速器集群提供高性能、高可靠、低成本的互连解决方案。2 0 2 5 A I 网 络 技 术 白 皮 书1 7(一)U A L i n k 的背景与目标随着 A I 大模 型参数量 的爆炸 式增长,对计算 集群的规 模和互连 性能提 出了前所未有的要求。英伟达的 N V L i nk 技术虽然性能卓越,但其专有性质 使得其他厂 商难 以参 与和 创 新,导致 重复 造轮 子、生 态碎 片化 等 问 题 的 出现。U A L i nk 联盟的成立,正是为了解决这些痛点。U A L i nk 的目标是提供一个高性能、可扩展的互连标准,能够支持大规模 A I加速 器集群的 构建,并 满足不同 A I 工作 负载的通 信需求。它旨在实 现以下 关键特性:(1)开放性:U A L i nk 是一个开放标准,任何厂商都可以参与其开发和采用,从 而 促 进 生 态 系 统 的 繁 荣 和 创 新。(2)高 性 能:提 供 与 N V L i nk 相 当 甚 至超越的带宽和低延迟,以满足 A I 训练和推理的极致性能需求。(3)可扩展性:支持连接数千甚至上万个 A I 加速器,构建超大规模的计算集群。(4)成本效益:通过标 准化和开 放性,降 低互连解 决方案的 开发和部 署成本。(5)灵活性:支持多种互连拓扑和通信模式,以适应不同的 A I 应用场景。(二)U A L i n k 架构与协议栈U A L i nk 1.0 规范是该标准的首个版本。U A L i nk 1.0 支持每通道最高 200 G T/s的数据传输速率,信令速率高达 212.5 G T/s,以满足以太网第 1 层前向纠错(F E C,F o r w a r d E r r o r C o r r e c t i o n)和 额 外 第 1 层 编 码 所 需 的 带 宽。U A L i nk 通 道 可 配 置 为单通道(x 1)、双通道(x 2)或四通道(x 4)链路。四个通道组成一个站点(St a t i o n),在发送(T X)和接收(R X)方向各提供最高 800 G bps 的带宽。这种灵活的配置使得 加速器的 数量和分 配给每个 加速器 的带宽可 以根据 A I 应用 的需求进 行灵活扩展。U A L i nk 交换机(U L S)可连接最多 1024 个加速器或端点,每个加速器被分配一个唯一的 10 位路由标识符,这使得 U A L i nk 能够支持构建超大规模的 A I 加2 0 2 5 A I 网 络 技 术 白 皮 书1 8速 器 集 群。U A L i nk 还 支 持 将 P o d 进 一 步 划 分 为 多 个 虚 拟 P o d。虚 拟 P o d 是 P o d内一个或多个加速器组成的逻辑组,组内加速器可以相互通信,但与 P o d 内其他加速器保持隔离。这种划分通过交换机端口子集的非重叠分配实现,提供了更灵活的资源管理和隔离能力。U A L i nk 采 用物 理层、数据 链路 层、事 务层 和协 议层 四层 结 构,自底 向 上深度融合性能优化与标准兼容性:图 5 U A L i n k 协 议 栈物 理 层:U A L i nk 物 理 层 直 接 复 用 I E E E 802.3dj 以 太 网 标 准,支 持 单 通 道106.25 G T/s(低速模式)或 212.5 G T/s(高速模式),对应 100G 至 800G 带宽配置。物理编码子层(P C S)/物理介质连接接口(P M A)通过增强型码字交织模式,以优化 F E C 延迟。物理介质相关子层(P M D)、自动协商和链路训练(A N/L T)与 802.3 保 持一 致,未做 修 改。P C S 和 R S(协调 层-P C A 与 D L 之 间的 接口)需要将 D L 信元与码字同步,以便将来自 D L 的 640 字节信元(生成一个 C R C)准确地装入一个 R S(544,514)码字。2 0 2 5 A I 网 络 技 术 白 皮 书1 9数 据 链 路 层:数 据 链 路 层 位 于 事 务 层 与 物 理 层 之 间,负 责 将 来 自 事 务 层 的64 字节 F l i t 打包聚合为 640 字节 F l i t,供物理层使用。它还在链路伙伴之间提供消息 服务,用 于通告事 务层速率、查询 连接的链 路伙伴的 设备和端 口 I D 等。消息服务还在链路伙伴之间提供一种 U A R T(通用异步接收器发送器)式的通信,主要用于固件(F i r m w a r e)通信。事务层:事务层负责将来自 U A L i nk 协议层接口(U P L I)的协议消息转换为事务层数据片(T L F l i t),并将其传递给数据链路层。同时它也将从数据链路层接收到的 T L F l i t 转换回 U A L i nk 协议层接口上的协议消息。事务层支持流式地址缓存来压缩地址,以提高传输效率。协议层:协议层是 U A L i nk 协议栈的最上层,负责处理加速器之间的消息。U A L i nk 是 一种 对称 协议,在发 送路 径和 接收 路 径中 支持 相同 的 消息 集和 信道。这些消息会经过 U A L i nk 堆栈的多个功能层处理。U A L i nk 作为一项开放式的高性能互连标准,有望在 A I 加速器互连领域掀起一场技术革命,为构建未来超大规模 A I 计算基础设施奠定坚实基础。3.2.2 新 型 互 连 技 术3.2.2.1 S U ESU E(Sc a l e U p E t he r ne t)是博通提出的一种新型互连框架,旨在将以太网的优势引入 A I 系统内部的 Sc a l e U p 领域,实现 X P U(包括 G P U 等专用芯片)之间的高速、可靠、开放通信。(一)S U E 的背景与目标SU E 框 架允 许将 X P U 集 群扩 展至 机 架或 多 机架 规模,以支 持 大规 模数 据 集处理、深度神经网络训练及并行任务执行。其核心思想是以以太网为基础构建传2 0 2 5 A I 网 络 技 术 白 皮 书2 0输 层和 数据 链路 层,直 接在 X P U 间 高效 搬运 内存 事 务。在部 署 模型 上,SU E 支持单跳交换拓扑或直接互联的 M e s h 拓扑。每个 SU E 实例可灵活配置端口数(1/2/4个),例如 800G 实例可拆分为 1800G、2400G 或 4200G 端口,以适应交换 机 端 口 密 度 和 冗 余 需 求。单 个 X P U 可 集 成 多 个 SU E 实 例(如 8 或 16 个),通 过 多 实 例 叠 加 实 现 超 高 带 宽(例 如 64 个 X P U 各 配 12 个 800G SU E 时,任 意X P U 对间带宽达 9.6T bps)。(二)S U E 技术架构技术 架构 上,SU E 采用 类 A X I 的双 工数 据接 口,通过虚 拟通 道(V C)将 事务映射至不同流量类别,支持两种传输模式:严格有序模式(保障事务顺序)和无序模式(多端口负载均衡)。其协议栈分为三层:图 6 S U E 协 议 栈映 射 打 包 层:将 发 往 同 一 目 标(X P U,V C)的 事 务 聚 合 成 最 大 4096 字 节 的SU E 协议数据单元(P D U,P r o t o c o l D a t a U ni t);传 输层:添加 可 靠 性头 部(R H),包 含 序列 号(P SN)、虚 拟 通道(V C)及确认机制(R P SN),并附加 32 位 C R C 校验(R-C R C)。采用简化的 G o-B a c k-N2 0 2 5 A I 网 络 技 术 白 皮 书2 1重传机制,通过 P F C/基于信用的流控(C B F C,C r e di t B a s e d F l o w C o nt r o l)和链路层重传(L L R,L i nk L e v e l R e t r y)实现无损网络;网络层:支持标准以太网/I P v 4/I P v 6/U D P、优化的 A I 转发报头(A F H G e n1)及高度压缩的 A F H G e n2(仅 6-12 字节),以降低协议开销。SU E 提 供三 类接 口。X P U 命 令接 口:支 持 F I F O 信 用机 制或 A X I 4 总 线,传输 事 务 指 令 及 数 据(控 制 字 段 144 位,含 操 作 码、长 度 及 目 标 X P U I D);X P U管 理 接 口:基 于 A X I 的 寄 存 器 配 置 通 道;以 太 网 接 口:支 持 200G/100G Se r de s速率,兼容 P F C/C B F C 流控及 L L R 重传,可动态切换故障链路。SU E 实时监测各目标队列,在不引入额外延迟的前提下,将队列内多个事务动 态 打 包 成 单 个 以 太 网 帧 发 送(上 限 2K B)。接 收 端 通 过 P SN 验 证 顺 序,错 误时触发 N A C K 及重传。负载均衡由 X P U 层全局调度(跨多个 SU E 实例)和 SU E内部调度(多端口无序模式)共同实现。SU E 要求端到端往返延迟(R T T)低于2 微 秒,单 跳网 络 最多 支持 1024 个 X P U。通过 优 化封 装、无 损流 控 及物 理 层技术(如空心光纤),10 米传输的单向延迟可控制在 520 纳秒内,满足 X P U 间内存事务的苛刻时延需求。3.2.2.2 O I S A全向智感互联(O I SA,O m ni-di r e c t i o na l I nt e l l i g e nt Se ns i ng E x pr e s s A r c hi t e c t ur e)是 中国 移动 提 出的 开 放 G P U 互 连协 议体 系,旨 在 解决 万亿 参 数大 模 型训 练中 的通信墙问题。(一)O I S A 的背景与目标超 大模 型 训练 依 赖 G P U 间 频繁 数 据交 互,通 信 开销 导 致集 群 有效 算 力无 法随 G P U 数量线性增长,互联性能成为制约集群规模扩展和性能提升的瓶颈。O I S A2 0 2 5 A I 网 络 技 术 白 皮 书2 2旨 在打 造高 效、智 能、灵 活且 开 放的 G P U 卡 间互 联体 系,支 持 大模 型训 练、推理、高性能计算等数据密集型 A I 应用。(二)O I S A 协议架构O I SA 采 用分 层设 计的 协 议结 构,分 别是 事务 层、数 据层 和物 理 层,允 许各个层级专注于特定的功能实现,从而保障整个系统的优化和高效运行图 7 O I SA 核心架构事务层:最上层,负责封装数据,支持消息语义、内存语义、多语义三种模式,引入选择性重传(SR,Se l e c t i v e R e pe a t)机制,相比 G o-B a c k-N 协议在 Sc a l eU p 场景效率更高,可精确识别并仅重传丢失或损坏数据包,提高传输效率。数据层:介于事务层和物理层之间,定义了具有流量感知能力的报文结构,为 实 现 链 路 资 源 和 传 输 速 率 的 动 态 调 整 提 供 依 据。引 入 了 C B F C 和 P F C 两 大 流控技术,避免网络拥塞并确保数据的有序流动。此外还引入了数据层重传技术提升系统响应速度和可靠性。2 0 2 5 A I 网 络 技 术 白 皮 书2 3物理层:最底层,包括逻辑子层和电气子层。逻辑子层定义了数据传输逻辑特性,负责编码和时序同步;电气子层负责将逻辑子层编码后的数据转换为电气信号,定义电气参数和接口,确保设备兼容性和连接正确性。O I SA 接 口 支 持 A X I 总 线 接 口(如 A X I St r e a m 用 于 高 速 数 据 传 输,A X I L i t e用于控制信息传输),也可兼容 G P U 厂商自定义接口方案。O I SA 通 过统 一报 文格 式、多 语义 融 合、多层 次流 控 和重 传、集 合通 信加 速等关键技术,实现了高速、低时延、无损和高可靠的 G P U 通信。3.2.2.3 A L S在 2024 O D C C 开放数据中心大会上,阿里云联合信通院、A M D 等十余家业界伙伴发起 A I 网络互连开放生态 A L S(A L i nk Sy s t e m)。A L S 产业生态支持 U A L i n k协议,目标是解决 A I 智算超节点快速发展中面临的超高速、超大带宽的 Sc a l e U p技术难题。通过开放生态促进 A I 智算互连领域的技术创新和标准化。目前,A L S已形 成从 协议 到芯 片、从硬 件设 备到 软件 平台 的系 统体 系,在 A L S-D 数据 面支持 U A L i nk,在 A L S-M 管控面提供统一接口规范和管控软件平台。图 8 A L S 技术架构图2 0 2 5 A I 网 络 技 术 白 皮 书2 4A L S-D 数据面:A L S-D 数据面互连采用 U A L i nk 协议,这意味着它原生支持高 性 能 内 存 语 义 访 问 和 显 存 共 享,并 支 持 Sw i t c h 组 网 模 式。在 性 能 上,A L S-D具备 超高 带宽、超 低时 延能 力,并增 加了 在网 计算 等特 性。这使 得 A L S-D 能够为 A I 应用提供强大的数据传输能力和计算加速。A L S-M 管控面:A L S-M 管控面旨在为不同芯片提供标准化接入方案,符合规范的设备均可灵活接入应用方系统。无论是对开放生态还是厂商专有互连协议,A L S 都 使 用 统 一 的 软 件 接 口。同 时,A L S-M 为 云 计 算 等 集 群 管 理 场 景,提 供 单租、多租等灵 活和弹性 的配置能 力,从 而实现对 A I 集群 资源的精 细化管理 和调度。A L S 是 U A L i nk 协 议 的 积 极 实 践 者 和 推 广 者,通 过 将 U A L i nk 协 议 应 用 于 实际的 A I 基础设施中,验证了 U A L i nk 的性能和可行性,并进一步丰富了 U A L i n k的 生 态 系 统。可 以 说,A L S 是 U A L i nk 在 A I 智 算 超 节 点 领 域 的 一 个 重 要 应 用 和落地。3.2.2.4 E T H 高通量以太网(E T H )协议是由中国科学院计算技术研究所、阿里云等超40 家 机构 组成 的 高通 量 以太 网联 盟(E T H C o ns o r t i um)发布 的一 种 新型 以 太网协议。2024 年 9 月发布了 1.0 版本,基于 E T H 协议的网络协议 I P、开源网卡等硬件 和系 统也 已经 公开。E T H 旨在 通过 对以 太网 帧格 式、链路 层和 物理 层进 行优 化,以 及结 合 R D M A 在 网计 算(I n-N e t w o r k C o m put i ng)技术,显著 提 升以 太网在 A I 智算网络中的性能,以应对 A I 时代对高效、稳定、可扩展网络的需求。帧 格式 优化:E T H 协 议通 过优 化以 太网 帧格 式,有效 提升 了以 太网 帧的 有效载荷比(可达 74%)。这意味着在相同带宽下,可以传输更多的有效数据,从2 0 2 5 A I 网 络 技 术 白 皮 书2 5而大幅提高 A I 数据中心大量短数据报文的传输效率。对于 A I 训练中频繁出现的梯度同步等小包传输场景,这一优化尤为关键。链 路层 与物 理层 重传:E T H 深 度支 持链 路层 和物 理层 的重 传技 术。传统 的以太网在链路层通常不提供重传机制,一旦发生丢包,需要上层协议(如 T C P)进行 重传,这 将引 入较 大的 延迟。E T H 在更 低的 层次 引入 重传 机制,可 以更 快地恢复丢失的数据包,从而显著提升网络的语义可靠性,并降低端到端延迟。R D M A 在网计算:E T H 基于 R D M A 技术,并进一步结合了在网计算能力。R D M A 允 许 应用 程 序 直 接访 问 远 程内 存,绕 过 C P U 和 操 作系 统,从 而显 著 降 低延 迟 和 C P U 开 销。在 网 计 算 则允 许 网 络 设备 在 数 据 传输 过 程 中执 行 简 单 的计 算任务,例如集合通信中的聚合操作。通过这种结合,E T H 实现了集合通信性能30%以上的提升,有效解决了传统以太网在处理 A I 集合通信时的效率问题。2025 年 8 月 14 日,高 通 量 以 太 网 联 盟 发 布 了 E T H 协 议 1.1 版 本。同 时 还推 出 了 全 量 支 持 E T H 特 性 的 首 款 国 产 400G 智 能 网 卡 芯 片、首 款 国 产 25.6T 交换芯片、E R a c k /O R a c k 国产硅光芯片,以及首款 E T H 64 超节点等。3.3 S c al e O u t(横向扩展)技术3.3.1 I n f i n i B a n d 技 术在 面 向 大 模 型 训 练 的 A I 集 群 中,I nf i ni B a nd 凭 借 其 高 带 宽、低 延 迟 和 原 生R D M A 能力,成为英伟达等厂商构建高性能训练网络的首选互连技术。3.3.1.1 I B 架 构 与 协 议 栈集群结构上,I nf i ni B a nd 与 N V L i nk、N V Sw i t c h 协同构建三层通信架构:节点内通信:依赖 N V L i nk 或 N V Sw i t c h,实现单节点内 G P U 间的高速互联;2 0 2 5 A I 网 络 技 术 白 皮 书2 6 节点间通信:通过 I nf i ni B a nd 网络实现跨服务器 G P U 通信,支撑分布式训练;多节点组网:使用 I nf i ni B a n d 交换机(如 Q ua nt um、Spe c t r um)构建 F a t-T r e e或 D r a g o nf l y 拓扑,确保通信性能和扩展性。在 D G X 系 列 中,一 台 服 务 器 内 部 的 8 块 G P U 通 过 N V Sw i t c h 实 现 全 互 联,每台服 务器配备 多个 H D R 或 N D R I nf i ni B a nd 网卡,提供最高 达 800G b/s 的通信带 宽。服 务 器 间 通 过 I nf i ni B a nd Spi ne-L e a f 网 络 结 构 连 接,构 建 成 标 准 的 两 层F a t-T r e e 或 D r a g o nf l y 拓 扑 网 络,以 保 障 任 意 G P U 对 任 意 G P U 的 高 带 宽、低 阻塞通信。I nf i ni B a nd 的技术优势包括原生支持 R D M A 与零拷贝通信,避免 C P U 参与,大 幅 降 低 延 迟;具 备 端 到 端 通 信 可 靠 性 机 制(E 2E R e l i a bi l i t y),无 需 依 赖 软 件协议重传;通过 Subne t M a na g e r 管理网络拓扑、路径与服务等级,实现可编程与集中调度。I nf i ni B a nd 采用 分层 协议 栈设 计,与 O SI 模型 类似 但针 对高 性能 场景 进行了优化:图 9 I nf i ni B a nd 协议栈2 0 2 5 A I 网 络 技 术 白 皮 书2 7物理层:定义高速串行传输接口,支持多速率(H D R、N D R、X D R)和编码方式(N R Z、P A M 4),确保高速稳定的信号传输。链 路 层:负 责 数 据 帧 的 组 装、流 量 控 制、错 误 检 测(C R C 校 验)和 虚 拟 通道管理。虚拟通道允许在同一物理链路上划分多个逻辑通道,实现流量隔离和优先级管理,避免热点和拥塞扩散。链路层还保证数据传输的可靠性和有序性,是I nf i ni B a nd 实现端到端高性能通信的基础。网络 层:网络 层实现 数据 包的 路由与 路径 选择 功能。I nf i ni B a nd 支持 多种 拓扑和多路径路由策略,包括静态路由和自适应路由,以提高网络负载均衡和容错能力。传输层:传输层是协议栈的核心,提供多种通信服务类型:可靠连接(R C,R e l i a bl e C o nne c t i o n),面向连接,确保数据有序且无丢失(需确认),适合大多数训练同步通信;可靠数据报(R D,R e l i a bl e D a t a g r a m),无连接,支持多目标通 信(需 确 认);不 可 靠 连 接(U C,U nr e l i a bl e C o nne c t i o n),面 向 连 接,不 保证交 付(无需确 认);不可 靠数 据报(U D,U nr e l i a bl e D a t a g r a m),无连 接,不保证交付(无需确认)。I nf i ni B a nd 协议栈从物理层到传输层全栈自研,内置 R D M A 与流控机制,保证硬件层面端到端的高效和可靠。3.3.1.2 关 键 技 术 与 带 宽 演 进I nf i ni B a nd 的核心优势之一是其底层通信协议中原生集成了 R D M A 机制,无需 操 作 系 统 介 入,即 可 通 过 G P U D i r e c t 技 术 实 现 节 点 之 间 的 G P U 直 达 通 信,极大减少延迟与内存拷贝开销,是大规模训练任务通信效率的关键保障。(1)R D M A 与 G P U D i r e c t2 0 2 5 A I 网 络 技 术 白 皮 书2 8I nf i ni B a nd 专为高 性能 通信 设计,不依 赖软 件协议 堆栈 即可 提供低 延迟、零拷贝的数据交换路径。通过 G P U D i r e c t R D M A 技术,网卡可以直接访问 G P U,跳过 C P U 和主内存,从而降低通信延迟至微秒级,并释放主机资源用于计算。(2)拥塞控制与链路可靠性机制I nf i ni B a nd 的另 一个 核心 特性是 其端 到端 的通信 可靠 性机 制,协 议层 自带 包序列管理、确认与重传机制,确保每个数据包都可靠送达,这一点使其在应对大规 模 G P U 同 步通 信中 的 网络 抖 动和 丢包 问 题上 表 现更 优。同 时它 还 支持 服务 等级与虚拟通道机制,用于多租户隔离和流量调度;自适应路径选择与 F E C,增强网络弹性与稳定性;以及 Subne t M a na g e r,可控制拓扑路径、拥塞点规避与 Q o S策略。(3)带宽演进I nf i ni B a n d 的物理层带宽已历经数代跃升,从早期的 10G b/s 到最新单端口 800 G b/s:表 2 I nf i ni B a nd 演进3.3.1.3 I n f i n i B a n d 与 以 太 网在实 际部 署中,I nf i ni B a nd 与以 太网 形成 互补关 系。二者 的核心 差异 主要 体现在协议架构、性能稳定性与管理方式等方面:2 0 2 5 A I 网 络 技 术 白 皮 书2 9表 3 I nf i ni B a nd 与以太网在 以 太 网 生 态 逐 步 引 入 R o C E v 2、C X L 互 联 协 议 的 背 景 下,也 出 现 了I nf i ni B a n d 与以太网融合的趋势,例如英伟达 Q ua nt um-2 同时支持 I B 与 E t he r ne t。3.3.2 R o C E v 2 技 术R o C E 是 一 种 通 过 以 太 网 网 络 进 行 远 程 直 接 内 存 访 问 的 网 络 协 议。和I nf i ni B a nd 协议一样,R o C E 协议通过发送方直接将数据写入接收方的内存中,无需经过接收方的操作系统内核,从而实现高带 宽,低延迟的数据传输。R o C E 协议可以无缝地集成到已有的以太网网络架构中,而无需更换交换设备,因此得到了产业界的广泛支持。3.3.2.1 高 性 能 R D M A 技 术目 前 R o C E 的 主 流 版 本 有 两 个:R o C E v 1 和 R o C E v 2,分 别 由 I B T A 于 2010年和 2014 年推出。R o C E v 1 在网络层和传输层复用了 I nf i ni B a nd 协议,仅在链路层使用以太网协议,允许在同一以太网广播域中的任意两台主机之间进行通信。而 R o C E v 2 则将协 议扩展到了 网络层,这 意味着 R o C E v 2 数据包 可以被现有 以太网协议设备路由,进一步提高了与现有设备的兼容性和适用范围。因此,在现代智算网络中,R o C E v 2 取代了 R o C E v 1,成为和 I nf i ni B a nd 一样的主流 R D M A 网络协议技术。2 0 2 5 A I 网 络 技 术 白 皮 书3 0图 10 I nf i ni B a nd、R o C E、R o C E v 2 对比R o C E v 2 通过以下特性实现高性能数据传输:零拷贝数据传输:应用程序可直接访问远程内存,绕过操作系统内核,减少数据拷贝次数(从传统 T C P/I P 的 4 次拷贝降至 1 次),显著降低 C P U 开销。在100G bps 网络下,R o C E v 2 的端到端延迟可低至 1 微秒以内,优于 T C P/I P 的 10-2 0微秒。高效协议栈:基于 U D P 封装,省去 T C P 的连接建立、拥塞控制等开销,保持以太网帧格式不变,便于网络设备处理。支持大规模并发连接,单网卡可支持数百万个活跃队列对,满足微服务、容器化环境的高并发需求。内核旁 路:R o C E v 2 通过用 户态驱动 直接操作 网卡硬件,避免了 内核上下 文切换。每次通信可节省约 2000 个 C P U 时钟周期,这对于高频交易等场景至关重要。2 0 2 5 A I 网 络 技 术 白 皮 书3 1硬件加速:通过网卡中的专用 A SI C 芯片实现 R D M A 操作的硬件卸载,进一步 提 升性 能。支 持多 队 列 并 行处 理,利 用现 代 C P U 多 核 优势,实 现 线性 扩 展 的吞吐量。3.3.2.2 跨 网 段 路 由 技 术R o C E v 2 相 较 于 其 前 身 R o C E v 1 的 一 个 显 著 优 势 在 于 其 支 持 跨 网 段 路 由。R o C E v 1 仅限于在 二层网络(同一 广播域)内进行 R D M A 通信,而 R o C E v 2 通过将 R D M A 协议封装在 U D P/I P 报文中,使其能够在三层网络(I P 网络)中进行路由,从而实现了跨网段的 R D M A 通信。R o C E v 2 的 数 据 包 在 以 太 网 帧 的 基 础 上,增 加 了 I P 头 和 U D P 头。这 种 封 装方式使得 R o C E v 2 数据包可 以像普通的 I P 数据包一 样,在标准 I P 路由器和 交换机 之 间 进 行 转 发。具 体 来 说,R o C E v 2 将 R D M A 传 输 层 协 议 的 数 据 封 装 到 U D P数 据 报 中,然 后 U D P 数 据 报 再 封 装 到 I P 数 据 包 中。I P 头 包 含 了 源 I P 地 址 和 目的 I P 地址,使得数据包可以在不同的 I P 子网之间进行路由。U D P 作为传输层协议,提供了端口号,用于区分不同的 R D M A 连接。虽然 U D P 本身是无连接和不可 靠的,但 R o C E v 2 在 U D P 之 上实 现了 可 靠传 输 机制,确 保 了 R D M A 通 信的 可靠性。R o C E v 2 突破了传统二层网络的限制,让 A I 集群可以部署在更大的规模和更复 杂 的 网 络 拓 扑 中,支 持 数 千 甚 至 上 万 个 节 点 的 互 联。此 外,R o C E v 2 允 许 A I计算节点和存储节点分布在不同的子网中,提高了网络部署的灵活性和资源利用率。R o C E v 2 可以在 现有的标 准以太网 基础设施上 部署,无 需对网络设 备进行大规模升级或更换,降低了部署成本。然而,为了确保 R o C E v 2 在跨网段路由时的性能,仍然需要关注底层以太网的 无损 特性。虽然 I P 路 由提 供了 跨 网段 的能 力,但 如果 底层 以 太网 存在 丢 包或2 0 2 5 A I 网 络 技 术 白 皮 书3 2拥塞,仍然会影响 R D M A 的性能,因此在部署 R o C E v 2 跨网段网络时通常需要配合无损以太网技术(如 P F C、E C N 等)来保证端到端的无损传输。3.3.2.3 拥 塞 管 理 与 流 控 机 制传统的以太网是“尽力而为”的传输模式,在拥塞时会丢弃数据包,这对于R D M A 来说 是不可 接受的。因此,R o C E v 2 依赖于 无损以太网技 术来确保数据 传输的可靠性。R o C E v 2 的拥塞管理和流控机制主要通过以下技术协同工作:P F C:P F C 是 I E E E 802.1Q bb 标准 定义的一 种链路 层流控 机制,也 被称为 逐跳流控。它允许网络设备根据数据包的优先级对流量进行暂停。当交换机某个端口的缓存达到预设阈值时,它会向发送方发送一个暂停帧(P a us e F r a m e),通知发送方停止发送特定优先级的数据,直到缓存压力缓解。P F C 能够有效防止链路层丢包,是构建无损以太网的基础。E C N:E C N 是一种网络层机制,允许网络设备在检测到即将发生拥塞时,通过在 I P 报头中设置 E C N 标记来通知发送方。当交换机检测到队列深度超过某个阈值时,它会在数据包的 I P 头中设置 E C N 位,而不是直接丢弃数据包。接收方收到带有 E C N 标记的数据包后,会将其转发给发送方,发送方根据 E C N 标记降低发送速率,从而避免拥塞的发生。数 据 中 心 量 化 拥 塞 通 知(D C Q C N,D a t a C e nt e r Q ua nt i z e d C o ng e s t i o nN o t i f i c a t i o n):D C Q C N 是 R o C E v 2 中一种端到端的拥塞控制算法,它结合了 E C N和基于速率的拥塞控制。D C Q C N 通过以下步骤工作:(1)拥塞标记:交换机在检 测 到 拥 塞 时,通 过 E C N 标 记 数 据 包。(2)拥 塞 通 知 包(C N P,C o ng e s t i o nN o t i f i c a t i o n P a c ke t):接 收 方 收 到 带 有 E C N 标 记 的 数 据 包 后,会 生 成 一 个 C N P并 发 送 给 发 送 方。(3)速 率 调 整:发 送 方 收 到 C N P 后,会 根 据 C N P 中 的 信 息2 0 2 5 A I 网 络 技 术 白 皮 书3 3(如拥塞程度)动态调整其发送速率。D C Q C N 采用了一种量化的速率调整机制,使得发送方能够快速响应拥塞并恢复到最佳发送速率。这些机制协同工作,确保了 R o C E v 2 在以太网环境下的高性能和无损传输。P F C 提供了链路层的无损保障,E C N 提供了网络层的拥塞预警,而 D C Q C N 则实现了端到端的拥塞控制和速率调整。通过这些技术,R o C E v 2 能够为 A I 集群提供稳定、高效的 R D M A 通信,满足其对网络性能的严苛要求。3.3.3 U E C 传 输 协 议超以太网联盟(U E C,U l t r a E t he r ne t C o ns o r t i um)的成立标志着以太网技术演进的一个重要转折点。U E C 联盟由 A M D、A r i s t a、B r o a dc o m、C i s c o、H P E、I nt e l、M e t a 和 M i c r o s o f t 等 行 业 巨 头 于 2023 年 联 合 发 起,旨在 解 决 传 统 以 太 网 在 A I 和H P C 场 景 下 面 临 的 性 能 瓶 颈。2025 年 6 月,U E C 规 范 1.0 版 本 正 式 发 布,这 被视为以太网向新一代数据密集型基础设施演进的关键一步。3.3.3.1 U E C 传 输 协 议U E C 协议代表了以太网技术在高性能计算和人工智能时代的一次重大革新。作为对传统以太网和 I nf i ni B a nd 技术的突破性升级,U E C 协议从底层物理层到上层应用接口进行了全方位重构,旨在满足现代 A I/H P C 工作负载对网络的严苛需求。U E C 1.0 提供的 两个重要特性 L L R 和 C B F C 是用于 支撑内存语义 实现的重要基石。L L R 的工作机制是在链路层实现点到点的可靠传输。发送侧为每一个传送的 L 2 帧 分 配 一 个 序 列 号。该 序 列 号 嵌 入 在 L 2 帧 的 前 导 码 中 传 输。接 收 侧 负 责校验收到的 L 2 帧携带依次增加的序列号,并周期性地发送 A C K 以向链路伙伴指示 最 近 成 功 接 收 的 L 2 帧 的 序 列 号。如 果 接 收 的 L 2 帧 F C S 校 验 错 误 或 者 序 列 号非 预 期,接 收 侧 发 送 N A C K 请 求 发 送 端 重 传。发 送 侧 维 持 一 个 重 传 缓 冲,重 传2 0 2 5 A I 网 络 技 术 白 皮 书3 4的 机 制 采 用 G o-ba c k-N。在 Sc a l e U p 网 络 中 采 用 L L R 的 核 心 诉 求 在 于 本 地 发 生的错误就近 发现,就近恢复。相较 而言,如果不采用 L L R 机制,发生 丢包/错包之后依靠端到端的选择性重传机制来恢复,那么就会给内存语义访问带来极大的延时增加。C B F C 通 过 信 用 机 制 控 制 链 路 上 的 L 2 帧 传 输,发 送 方 以 信 用 为 单 位 跟 踪 接收方可用的缓冲区空间,并且只有当接收方有足够的缓冲区空间(以信用为单位)时,调 度器 才允 许 调度 数据 包 从无 损 V C 队 列进 行传 输。C B F C 消 息用 于将 信用从接收方返回给发送方。接收方的信用生成取决于接收方端口缓冲区的可用性。发送侧以相对低的频度向接收侧发送已使用的信用计数器更新,此更新的目的是重新捕获由于链路错误(例如无法纠正的 F E C 错误或数据包 C R C 错误)导致的数据包丢失而可能“泄露”的信用。此外,C B F C 支持多达 32 个 V C,可以为每个 V C 独立配置优先级和信用分配。在 Sc a l e U p 网络中采用 C B F C 的核心诉求在于实现无损传输,避免由于接收侧没有足够的缓冲导致丢包。这种情形的丢包只能依靠端到端的选择性重传机制来实现,同样会给内存语义访问带来极大的延时增加。从 线 路 传 输 效 率 的 角 度 来 说,Sc a l e U p 网 络 中 内 存 语 义 的 操 作 主 要 是 以C a c he L i ne(256B/128B)为颗 粒度的 内存访 问,传 统基于以 太的协 议栈报 文封装 势必 给 内 存 语 义 的 操 作 带 来 巨 大 的 开 销。U E C 的 多 个 相 关 技 术 工 作 组 已 经 或 正 在开展相关的研究工作。以 L i nk W G 为例,工作组早已启动优化以太网 L 2 he a de r的 研 究,相 关 的 提 案 如 统 一 转 发 头(U F H,U ni f i e d F o r w a r di ng H e a de r)旨 在 提 供 与标准 E t he r ne t 无缝的互联互通,同时通过压缩提供更好的线路传输效率,而并非复制或 者取代标准 L 2 L 3 he a de r 所提供 的功能。U F H 提案起 初是为 Sc a l e O ut 网络设计的,但是也同样适用于 Sc a l e U p 网络。2 0 2 5 A I 网 络 技 术 白 皮 书3 5表 4 U E C 协议栈3.3.3.2 U E C 架 构 与 协 议 栈U E C 1.0 采用模块化分层架构,通过软件层开放架构接口 L i bF a br i c、传输层U E T 的多维创新、网络层的数据包修剪,以及链路层的性能增强等关键技术实现了全栈优化。图 11 U E C 1.0 协议栈2 0 2 5 A I 网 络 技 术 白 皮 书3 6软件层:L i bF a br i c 2.0 A P I 是 U E C 软件栈的核心构建模块,定义了一套面向高 性 能 并 行 和 分 布 式 应 用 程 序 的 通 信 接 口。L i bF a br i c 的 主 要 目 标 是 提 供 统 一 接口,让开发者能够方便构建应用,而无需关心底层具体的传输协议和硬件细节。L i bF a br i c 支持 T e ns o r F l o w、P y T o r c h 等 A I 框架及 N C C L、M P I 等 H P C 库,通过 J o bI D实现多租户隔离。单个 N I C 可承载多个 F a br i c E nd P o i nt(F E P),每个 F E P 仅属于一个 J o b 并与同 J o bI D 的 F E P 交互。传输层:传输层是 U E C 规范的核心创新所在。语义子层解析应用请求(如A l l R e duc e),定义消息语义与操作类型(发送/读取/原子操作),实现计算指令的优先级区分;分组交付子层提供可靠无序(R U D,R e l i a bl e U no r de r e d D e l i v e r y)、可 靠 有 序(R O D、R e l i a bl e O r de r e d D e l i v e r y)、可 靠 无 序 幂 等(R U D I,R e l i a bl eU no r de r e d D e l i v e r y F o r I de m po t e nt)、不 可 靠 无 序(U U D,U nr e l i a bl e U no r de r e dD e l i v e r y)四 种 交付 模 式,适 应 不 同应 用 场 景;拥 塞 管理 子 层 支 持 动 态 窗口 调 整与流量分类。传输安全子层定义 A E S-G C M 加密算法与密钥管理机制,保障数据传输安全。网络层:支持包修剪(P a c ke t T r i m m i ng),允许交换机截断有争议的数据包,修改截断数据包的 D SC P 字段,并将其作为拥塞信号转发到目的地,为上层协议提供更多拥塞信息,以确保快速重传丢失的数据包。链 路层:U E C 链 路层 最大 的 变化 是 引入 了 L L R 协 议,它可 以 让以 太 网不 依赖 P F C,实现无损传输,本地化错误恢复将重传延迟压缩至 1 微秒内,相比端到端重传效率提升 100 倍。物 理 层:U E C 1.0 规 范 下 的 物 理 层 与 传 统 以 太 网 完 全 兼 容,支 持 每 通 道100G bps 和 200G bps 速率,并在此基础上实现 800G bps 和更高的端口速率。3.4 前沿突破技 术2 0 2 5 A I 网 络 技 术 白 皮 书3 73.4.1 确 定 性 广 域 网 技 术A I 训练与推理对网络性能要求严苛,大模型分布式训练需跨数据中心协同,传统网络难以保障。确定性广域网技术能提供高可靠、低延迟、高带宽的传输服务,显著提升网络在带宽、时延、抖动、丢包等维度的指标,让网络从“尽力而为”转变为“确保所需”,为 A I 业务提供确定性服务质量,成为推动 A I 持续创新发展的关键支撑技术。3.4.1.1 D e t N e t随着 工业互联 网、自 动驾驶、远程医 疗以及 A I 训练 等对网络 时延、抖动和丢 包率 有严 格 要求 的应 用 场景 的兴 起,传 统尽 力而 为 的 I P 网 络已 无法 满 足其 确定性传输的需求。确定性网络应运而生,旨在为这些高实时性业务流提供可预测、可规划的网络传输服务,确保极低的丢包率和确定的端到端传输时延及抖动。D e t N e t 是互联网工程工作小组(I E T F,I nt e r ne t E ng i ne e r i ng T a s k F o r c e)提出的 一个 标准 体 系,其目 标 是在 I P 层 和以 太网 层 提供 确定 性 服务。D e t N e t 架 构的核心思想是通过对网络数据转发行为的精确控制,实现可预期的性能。其核心技术包括:资源预留与调度:通过划分转发时隙、资源预留(链路带宽预留、节点缓存预留等)和包抢占实现超低延迟和零拥塞损失,不仅限制端到端时延上界,还控制时延下界,实现更低时延抖动。允许在每个调度周期内,将确定性流的空闲资源调度给非确定性流使用,实现弹性调度。可靠传输:采用包复制和冗余消除技术,在入口边缘节点复制数据包并通过多个路径发送,网络边缘节点进行冗余副本消除和原始数据包还原,确保单个随机事件或设备故障不会导致数据包丢失。支持多发选收功能,首节点复制报文在多条链路上同时发送,尾节点消除冗余副本并重新排序,提升网络可靠性。2 0 2 5 A I 网 络 技 术 白 皮 书3 8路径控制:通过特定协议或集中控制单元计算确定性业务流的最佳路径,并依靠冗余路径保证个别链路故障时业务不中断,消除协议收敛时间的影响,保持转发路径稳定。作为新型 I P 层确定性网络技术,D e t N e t 通过精准控制时延、抖动和丢包率,为 A I 应用提供确定性服务质量保障。3.4.1.2 D I P确定 性 I P(D I P,D e t e r m i ni s t i c I P)网 络是一种 在 I P 网络 中为端到 端报文转发提 供确 定性 时延 和抖动 的技 术。与 D e t N e t 在 I P 层提 供调 度保 障不 同,D I P 技术 更侧 重于 在 传统 I P 网 络的 基础 上,通 过创 新 的机 制消 除因 数 据突 发带 来 的转发抖动,从而充分保障网络报文的确定性传输。D I P 技术尤其适用于对时延和抖动 有 严 格 要求 的 工 业 控 制、机 器 视觉、远 程 协 作 等 A I 应 用 场 景。D I P 技 术 通 常基于 SR v 6(Se g m e nt R o ut i ng o v e r I P v 6)网络部署,并结合了边缘整形、门控机制、周期调度等关键技术。边缘整形:在网络入口设备上通过令牌桶算法对突发流量进行周期性整形,将不规则的报文流转换为固定周期的数据流。令牌桶以恒定速率生成令牌,当报文到达时消耗对应数量的令牌。若令牌不足,报文将被缓存或丢弃,从而强制流量符合预设的平均速率和突发容量。门控调度:网络节点采用定时轮循机制,将时间划分为固定长度的调度周期。每个周期内,设备仅在特定时段开放门控队列发送报文。例如,周期开始时清空队列并发送报文,其他时间队列处于关闭状态,强制报文按周期节奏传输。周期映射:相邻节点通过周期映射协议自动协商发送周期,确保报文在转发过程中不会因时间差导致乱序。设备通过 D I P 学习报文(携带时延差值信息)动态计算本地转发周期。2 0 2 5 A I 网 络 技 术 白 皮 书3 9D I P 技术的目标是实现微秒级的确定性时延,这对于需要高精度同步和实时响 应 的 A I 应 用 至 关 重要。例 如 在 高 度 自 动 化的 工 业 制 造 场 景 中,D I P 网 络 能 够保障工业控制信号的超低时延,从而实现生产过程的精确控制和高效协同。3.4.1.3 C S Q F指 定 周 期 排 队 转 发(C SQ F,C y c l e Spe c i f i e d Q ue ui ng a nd F o r w a r di ng)是 一 种基于多周期的多队列循环调度机制,它是对标准 I E E E802.1Q c h 的循环排队转发(C Q F,C y c l i c Q ue ui ng a nd F o r w a r di ng)方 法 的 一 种 扩 展,主 要 为 解 决 长 延 迟 或跨 域 同 步 不 精 确 的 问 题。作 为 一 种 面 向 多 跳、长 链 路 场 景 的 确 定 性 转 发 机 制,C SQ F 被 认 为 是 时 间 敏 感 网 络(T SN,T i m e-Se ns i t i v e N e t w o r ki ng)和 D e t N e t 等 现有机制在可扩展性和跨域能力上的关键补充。在 T SN 标 准 体 系 中,C Q F 机 制 已 经 可 用 于 在 本 地 局 域 网 中 实 现 准 确 定 时 转发。但 C Q F 存在两大局限:(1)对时钟同步精度要求极高,否则周期间包转发会错位;(2)仅支 持两队列 模型,当 网络存在 多跳或传 播时延增 加时,容 易发生拥堵或传输周期错位。为了解决这些问题,C SQ F 在 C Q F 基础上扩展了三大能力:(1)支持 指定周期 排队与转 发;(2)引入 容忍 队列机 制;(3)实现 端到端周期一致性传播。C SQ F 的核心思想是,在网络设备的出端口上划分周期,一个周期内对确定性业务流进行统一调度,使其在确定的时间片内进行转发。与传统的尽力而为转发机制不同,C SQ F 通过精确控制数据包的转发时机,确保数据流能够按照预定的时间表穿越网络,从而实现端到端的确定性传输。周期划分与时间同步:C SQ F 引入全网络时间同步,交换机和网卡将时间分段为一致的周期,每个周期持续固定时长。2 0 2 5 A I 网 络 技 术 白 皮 书4 0指定周期排队:每个流被分配一个目标周期。数据包根据其周期标签入相应队列,从而确保只有在指定周期才会被转发。与 C Q F 使用两个队列不同,C SQ F至 少 使 用 三 队 列 结 构:其 中 偶 队 列(E v e n Q ue ue)和 奇 队 列(O dd Q ue ue)交 替进行接收和发送操作,容忍队列(T o l e r a t i ng Q ue ue)用于处理由于同步偏差或传输延迟导致错过预定周期到达的包。精准周期转发:在每个周期开始时,所有交换节点根据周期标签进行统一的定时转发,逐跳保持端到端的延迟可预测性。C SQ F 技术通过精密的调度和排队机制,有效地解决了传统网络中时延和抖动不确定的问题。在实时控制、传感器数据采集和处理等 A I 应用中,C SQ F 能够提供 高精度、低时延的 网络传输 保障,为 A I 系统 的稳定运 行和高效 决策提供 坚实的基础。3.4.1.4 长 距 R D M A 技 术传统 R D M A 主要应用于数据中心内部环境,覆盖范围通常不超过 10 公里,典型应用包括高性能计算和 A I 训练。长距 R D M A 是指将 R D M A 协议从数据中心内部延伸至广域网环境,覆盖数百至上千公里的物理距离,实现跨地域算力中心之间的高 吞吐、低时延、零丢包级别 的数据传输。长 距 R D M A 继承了 R D M A 的所有优势,适用于异地算力协同、海量数据搬迁等场景。然而,将 R D M A 扩展到广域范围面临三大挑战:第一,传输时延变长,A C K响应延迟。广域链路 会导致 R T T 大幅提升,使得发送端 R D M A 网卡缓存 快速填满,从而限制吞吐。第二,链路丢包影响严重。R D M A 使用 G o B a c k N 重传机制,对丢包高度敏感。一旦出现丢包,需要重传该点之后的所有数据包,吞吐显著下降。第三,网络 流控 不适配。D C N 交换 机 缓存 不足,难 以支 撑长距 R T T 带来 的2 0 2 5 A I 网 络 技 术 白 皮 书4 1流控回馈滞后,导致拥塞无法及时应对。因此必须对架构、技术与协议等多方面进行优化和改进,提高 R D M A 跨广域传输吞吐率。具体措施包括:全 光 网 络 承 载:构 建 算 间 全 光 高 速 平 面,将 D C N 网 络 的 Spi ne/L e a f 节 点 直连 光传 送 网 络(O T N,O pt i c a l T r a ns po r t N e t w o r k)光 传输 设 备,O T N 设 备基 于 物理层参数数据与端侧业务参数协同,实现高吞吐长距离传输。采用 M e s h 化、立体化拓扑进行组网,全面部署光交叉连接(O X C,O pt i c a l C r o s s-C o nne c t),通过联动 O T N 实现光电协同高效调度。协议优化:针对 R D M A 在广域网中的传输效率问题,优化 R D M A 协议参数,如调整 Q P 数量和块大小,以确保最大吞吐率,适应不同距离和带宽条件下的传输需求。长距 R D M A 是高性能广域算力互联的重要技术基础,它并不是对传统 R o C E或 I nf i ni B a nd 的简单延伸,而是一种从网络架构到端侧协议栈全面协同优化的系统级能力。通过构建全光无损传输网络、优化协议参数、实现光电协同调度与端网信息共享,R D M A 能够实现百公里级范围的无损、高通量传输能力。3.4.1.5 确 定 性 光 电 融 合 技 术当前,国内外大厂正联合推动 I P 支持 Z R ,其背后的驱动力在于 O T N 芯片的发展跟不上 I P 流量的迅猛增长,导致网络运力与算力、数据要素发展不平衡。与 此 同 时,A I 时 代 的 众 多 应 用 场 景 迫 切 需 要 一 个 具 备 确 定 性 的 光 电 融 合 网 络,以满足算网一体、一网多用的需求,实现时延、带宽的全颗粒灵活调配,按需定制。因此,确定性光电融合路由技术应运而生,成为解决当前网络挑战的关键技术之一。紫金山实验室和江苏未来网络集团在该领域取得了重大技术突破,攻克了“I P 光 Z R 技术”、“确定 性网 络技术”以及“C E N I 大网 操作 系统光 电融2 0 2 5 A I 网 络 技 术 白 皮 书4 2合调度技术”三大关键技术,实现了光、电、算深度协同,重构广域网络的架构与控制逻辑。(一)光电融 合光电 融合 的核心 原理 是将 复杂的 多层 网络(W D M、O T N 和分 组传 输层)统一为一个易于控制的层。O T N 的电层功能被 I P 层吸收,路由器直接搭载 400G Z R 可 插拔 相干 光 模块,跳过 传统 O T N 转 发器,直 接 从路 由 器端 口提 供 相干 波 长,让 I P 路由器具备光传输能力,实现 I P 层与光层的紧密协作。这种直接在路由器上发挥光传输功能的做法减少了中间转换环节,提高了传输效率。Z R 采 用 Q SF P-D D 封 装,符 合 O I F(光 互 联 论 坛)协 议,任 何 支 持 开 放 标准的路由器均可搭载,避免了厂商锁定;通过优化光电器件设计和信号处理算法,显著提高了光接收功率范围;引入增强型 o F E C 和优化算法,进一步提升了光接收 的可 靠性 和 传输 距 离,可实 现 超远 距 离无 电中 继 无损 传 输;跳过 O T N 层,路由器直驱光层,使得综合成本大幅降低,同时攻克了长距传输、确定性时延与低成本三大难题。(二)确定性 网络确定性网络作为核心支撑技术,其作用是通过构建可预测、可规划的网络传输 环 境,解 决 跨 区 域 算 力 协 同 中 的 传 输 难 题,满 足 工 业 互 联 网、远 程 医 疗、A I训 练等 场 景对 低 时延、高可 靠 性的 严 苛需 求。通 过采 用 D I P、C SQ F 等 技术,将网络传输划分为周期性时间片,确保确定性业务在固定时间片内传输,实现几乎零丢包、微秒级时延抖动、传输效率大于 90%的高质量网络传输能力。(三)大网操 作系统光电融合技术C E N I 大网 操作 系统支 持用 户根据 业务 需求(如带 宽、时 延、可靠性)动 态调整网络资源,实现“分钟级”网络切片配置,满足不同场景的差异化需求。大2 0 2 5 A I 网 络 技 术 白 皮 书4 3网操作系统光电融合技术通过 SD N 控制器集群,将 I P 路由器、数据中心交换机等异构设备纳入统一资源池,实现跨层资源全局可视与动态调度。同时通过智能编程技术,实现更合理的网络资源规划、业务的自动化开通和可管可控。在实际应用中,确定性光电融合路由技术展现出了卓越的性能。在 C E N I 现网 的 测 试 中,实 现 了 沿 江 2000 公 里 的 远 距 传 输,且 在 400G 满 负 载 的 情 况 下,保持零丢包的无损传输。在运营成本上,通过全颗粒切片和“I P 光”融合调度,全网带宽利用率达到 90%以上,丢包率小于十万分之一,有效减少了网络维护和优化的成本。同时,设备的小型 化和功耗的大幅降低,从 400G 功耗约 330W 降到约 30W,进一步节省了能源消耗和空间占用。3.4.2 超 节 点 计 算 架 构超 节 点(Supe r P o d)是 近 年 来 为 应 对 A I 大 模 型 训 练 与 推 理 需 求 而 发 展 起 来的新型算力基础设施架构,它通过高速互连技术将大量计算单元(如 G P U、T P U、N P U 等)紧密集成,构建一个高带宽域(H B D,H i g h B a ndw i dt h D o m a i n)。具体来说,超节点是指在一个物理机柜或一组紧密耦合的计算单元内部,通过高密度集成计算单元和专用的高速互联技术,实现近似单机性能的超大规模并行计算系统。它旨 在突 破传 统服 务器内 部以 及服 务器 之间 通过 P C I e 或标 准以 太网 互联 的带宽和延迟瓶颈,将数十甚至数百个加速器紧密连接,形成一个逻辑上的超大服务器,以支持张量并行、专家并行等对内部通信要求极高的并行计算任务。超节点计算架构的关键特征包括:高 密度 算 力 集成:在 有限 空 间内 集 成 大量 G P U 或 其他 A I 加 速器,提 供极致的计算密度。高速互联:采用 N V L i nk、I nf i ni B a nd 等高速互联技术,实现 G P U 之间以及 G P U 与网络之间的高带宽、低延迟通信,消除数据传输瓶颈。2 0 2 5 A I 网 络 技 术 白 皮 书4 4 算力 与网络深 度融合:网络不 再仅仅是 数据的 传输通道,而是与 计算紧密结合,实现网络感知计算、网络融合计算,甚至计算重塑网络。例如,在超节点 内 部,通 过 引 入 节 点 内 交 换 芯 片,增 强 卡 间 P 2P 带 宽,有 效 提 升 节 点 内 网 络传输效率。统一 资源管理 与调度:实现计 算、存储 和网络 资源的统 一纳管和 融合路由调度,提升资源利用率和管理效率。当前业界典型的超节点方案包括:(一)英伟达 D G X S u p e r P O D(以 N V L 7 2 为例)英 伟达 作 为 A I 加 速领 域 的 领导 者,其 D G X Supe r P O D 系 列是 业 界 广泛 采 用的 A I 超 级 计 算 平 台。其 中,G B 200 N V L 72 Supe r N o de 是 其 最 新 的 代 表 性 产 品 之一。G B 200 N V L 72 Supe r N o de 将 36 个 G r a c e C P U 和 72 个 B l a c kw e l l G P U 集 成 到一 个 液 冷 机 柜 中。它 采 用“G P U-G P U N V L i nk Sc a l e U p N o de-N o de R D M ASc a l e O ut”的互联方式。图 12 英伟达 D G X Supe r P O D C o m put e T r a y:整个系统包括 18 个 C o m put e T r a y,每个 C o m put e T r a y 包含 2 个 G B 200 超级芯片,每个 G B 200 超级芯片又包含 2 个 B l a c kw e l l B 200 G P U和 1 颗 G r a c e C P U,整个机柜共 72 个 B 200 G P U 和 36 个 G r a c e C P U。通过 N V L i n k2 0 2 5 A I 网 络 技 术 白 皮 书4 5和 N V L i nk-C 2C 技术,实现 G P U 之间以及 G P U 与 C P U 之间的高速内存共享和数据传输。单个 C o m put e T r a y 提供 7.2T B/s(单向 28.8T b/s)带宽,N V L 72 整机柜的 C o m put e T r a y 提供 129.6T B/S 的 N V L i nk 带宽。Sw i t c h T r a y:共包含 9 个 Sw i t c h T r a y,每个 Sw i t c h T r a y 内置 2 颗 N V Sw i t c h芯片,整个机柜提供 18 个 N V L i nk Sw i t c h 芯片。整机柜后部通过线缆将 C o m put eT r a y 和 Sw i t c h T r a y 进行互联。单个 Sw i t c h T r a y 提供 14.4T B/s(单向 57.6T b/s)带宽,N V L 72 整机 柜的 Sw i t c h T r a y 提供 129.6T B/s 的 N V L i nk 带宽。这 样超节 点整机柜 C o m put e T r a y 的 G P U 和 Sw i t c h T r a y 的交换芯片之间就可以实现全连接。Sc a l e U p:N V L 72 内部采用 N V L i nk5 和 N V Sw i t c h 构建 Sc a l e U p 网络,提供极高的带宽(每个 C o m put e T r a y 通过 N V L i nk/N V Sw i t c h 具有 7.2T B/s 的 Sc a l e U p连 接带 宽)和 超低 时 延(铜电 缆 连接 节 省了 光模 块 引入 的 时 延)。所 有 G P U 可以 访 问整 个 超 节 点其 他 G P U 的 H B M 内 存 和 G r a c e C P U 的 D D R 内 存,实 现 统 一内存空间。Sc a l e O ut:通过 C X 8 800G bps R N I C 接入 I nf i ni B a nd R D M A Sc a l e O u t 网络,实 现 多 个 N V L 72 Supe r N o de 组 成 更 大 规 模 的 Supe r P O D(例 如 8 个 D G X G B 200N V L 72 组成一个包含 576 块 B 200 G P U 的 Supe r P O D)。(二)华为 C l o u d M a t r i x 3 8 4C l o udM a t r i x 384 是华为推出的超大规模 A I 超节点解决方案,由 384 颗昇腾910C N P U 芯片通过全连接拓扑结构互联而成。它创新性地提出了对等计算架构,将总线从服务器内部扩展到整机柜甚至跨机柜。2 0 2 5 A I 网 络 技 术 白 皮 书4 6图 13 华为 C l o udM a t r i x 架构 C o m put e T r a y:每个 C o m put e T r a y 包含 8 块 910C N P U,并且内置了 7 个L 1-H C C S-SW 交换芯片(上联 Sc a l e U p) 1 个 C D R 交换芯片(上联 Sc a l e O ut)。910C N P U 采用 C hi pl e t 技术,集成了 2 颗 910B 和 8 颗 H B M 2e 内存,单卡算力达到 F P 16 781.25 T F L O P S,内 存 带 宽 3.2T B/s。每 张 N P U 基 于 H C C S(H i g h-s pe e dC o m put i ng C l us t e r Sy s t e m)G P U-G P U 私有高速互联协议使用 8 个通路分别连接到L 1-H C C S-SW 交换芯片,实现无阻塞带宽收敛比。Sw i t c h T r a y:每个 Sw i t c h T r a y(C l o udE ng i ne 16800 交换机)有 16 个业务槽,每个业务槽最大支持 48 个 400G 接口,整机支持 768 个 400G 接口。采用单层扁平化拓扑,构建 N P U 全互连(A l l-t o-A l l)拓扑结构,消除传统网络的带宽瓶颈。Sc a l e U p:C l o udM a t r i x 384 的 Sc a l e U p 带 宽 高 达 269T B/s,是 N V L 72 的2.1 倍。因 物 理 距 离 限 制,采 用 400G 低 功 耗 光 模 块(L P O),省 略 了 传 统 D S P芯片以降低时延和功耗。Sc a l e O ut:采用 Spi ne-L e a f 8 导轨拓扑,通过 400G 光模块构建 Sc a l e O u t网络,实现超节点间的互联,总带宽是 N V I D I A N V L 72 的 5.3 倍。2 0 2 5 A I 网 络 技 术 白 皮 书4 7(三)E T H-X由 O D C C 牵头,联合中国信通院、腾讯等单位发起的 E T H-X 项目可以支持单个 超节点 64 卡的 计算能力,和英 伟达的私 有 N V L i nk 方案 不同,E T H-X 采用更为开放的 R o C E 方案。C o m put e T r a y:每 个 C o m put e T r a y 包 含 4 张 G P U 和 1 个 X 86 C P U,C P U和 G P U 之间通过 P C I e Sw i t c h 对接。整个机柜共 64 张 G P U。同时每个 C o m put e T r a y提供 4 个 N I C 用于 Sc a l e O ut 方向的扩展。Sw i t c h T r a y:每 个 Sw i t c h T r a y 包 含 1 颗 支 持 R o C E 的 高 性 能 51.2T bps 以太网交换芯片,整个机柜提供 8 个 Sw i t c h 芯片。G P U 和 Sw i t c h 芯片支持 100G s e r de s。E T H-X 整机柜 G P U 互联带宽为 204.8T bps。8 个 Sw i t c h T r a y 支持 409.6T bp s的 带 宽,一 半 用 于 超 节 点 柜 内 连 接 G P U,另 一 半 的 带 宽 用 于 背 靠 背 连 接 旁 边 机柜 的超 节点 或 者通 过 L 2 H B Sw i t c h 做 更大 的 H B D 域 Sc a l e U p 扩 展。I nt e l G a udi 3G P U 提供 4.8T bps 的带宽,整个超节点 机柜需要 12 个 Sw i t c h T r a y。E T H-X 也支持 Sw i t c h T r a y 没 有 外 部 Sc a l e U p 扩 展 口 的 方 案,所 有 s e r de s 连 接 都 用 于 柜 内 互联,只需要 4 个 2U 高的 Sw i t c h T r a y。3.4.3 6 G 与 A I 网 络 协 同作 为下 一代 移动 通信 技 术的 核心 方向,6G 网 络不 仅聚 焦更 高的 速 率与 更广的覆盖,还被寄予原生智能化的期望。因此,6G 与 A I 网络的协同已成为未来网络架构演进的关键议题,两者之间的深度融合,将催生出全新的智能算力网络范式。从应用需求看,A I 网络对 6G 的核心诉求可归纳为:极致低时延与确定性服务:面向训推场景中跨设备、跨地域的实时数据同步,A I 网络要求网络能够提供亚毫秒级端到端通信延迟,且具备微抖动和高稳定性;2 0 2 5 A I 网 络 技 术 白 皮 书4 8分 布 式 资 源 感 知 与 协 同 调 度 能 力:A I 网 络 的 计 算 资 源 呈 异 构、跨 域 分 布,6G 网络需具备原生的资源发现 路径匹配带宽调配能力,支撑 A I 训练作业或推理服务在边、云间高效调度;原 生 多 模 态 感 知 能 力:A I 网 络 中 的 数 据 流 不 再 局 限 于 传 统 结 构 化 报 文,而是包含音频、视频、文本等多种模态,要求底层通信系统具备识别、分类、加速与编解码优化等多模态协同能力。这些特性构成了 6G 网络演进的目标边界,从通道能力迈向智能算力基础设施的融合平台。反过来看,6G 网络本身的架构演进也将深度嵌入 A I 技术,通过A I 网 络 的 协 同 赋 能,实 现 从 连 接 中 心 向 智 能 中 心 的 范 式 转 变。其 技 术 路 径 主 要体现在以下层面:网络架构智能化:6G 架构在设计之初就引入 A I 控制与协同模块,网络控制平面使用深度强化学习进行路由、频谱调度与功率控制;数据平面支持边缘推理节点进行本地智能处理;引入智能控制代理,模拟复杂拓扑行为,优化资源编排。通 信计 算融 合:6G 网 络不 再将 通信 与算 力 视作 割裂 系统,而 是构 建 通信 即计算 架构。在 边缘节点 集成 A I 推理 能力,实 现边学边 用;在链 路层引 入联合编码/压缩感知机制,减少跨域通信负载。A I 网 络 与 6G 协 同:A I 网 络 可 感 知 底 层 链 路 负 载、拓 扑 变 化,实 时 调 整 并行 粒 度 或 模 型 切 片 方 式;6G 网 络 可 根 据 A I 作 业 级 SL A 需 求(如 延 迟、吞 吐、能耗)主动执行路径调度、Q o S 区分与任务迁移。6G 与 A I 网络协同并非简单的通信和算法组合,而是面向未来智能社会的核心基础设施重构。二者的融合,将打造真正意义上的智能可编程网络,支撑大模型、数字孪生、类脑计算等未来 A I 应用的高效运行。2 0 2 5 A I 网 络 技 术 白 皮 书4 9第 4 章 N e t w o r k f o r A I 典 型 应 用 实 践本章精选行业领先的 N e t w o r k f o r A I 应用案例,全面覆盖大规模 A I 模型训练、实时推理等关键场景,并延伸至智能制造、智慧教学等垂直领域。通过深度解构这些 案例的技 术架构,揭示其如 何实现 网络性能 与 A I 需求 的精准匹 配,提炼 可复制、可推广的落地方法论,为行业提供兼具前瞻性与实操性的参考范式。4.1 移动云新型 智算网络架构移 动 云 新 型 智 算 网 络 架 构 H P N 1.0 面 向 超 大 规 模 A I 集 群 通 信 场 景,采 用 开放以太网技术路线,通过自主研发的高性能交换设备与 F A R E(全自适应路由以太网)协议,突破了传统以太网在集合通信场景下的负载均衡瓶颈,实现带宽利用率和训练效率的双提升,满足智算中心大模型训练与推理场景对高吞吐、低延迟、高可靠的极致要求。(1)Sc a l e O ut 网络图 14 移动云十万卡集群智算网络架构 架构创新:采用三层 C L O S 多轨道组网,单 P o D 支持多达 6 万张 G P U 服务器互联,收敛比达到 15:1,多轨道设计最大化机内网络与机外网络的协同能力,减少跨层通信,降低了整体网络延迟;2 0 2 5 A I 网 络 技 术 白 皮 书5 0 协议突破:F A R E 协议针对 A I 训练中流数少、单流大、高并发的流量特征,支持多路径包喷洒机制,带宽利用率可达 95%以上;极致性能:基于 51.2T 芯片自主研发磐石智算交换机,单台 8 卡 G P U 服务器支持 3.2T bps 的超高接入带宽;通过流量转发路径的优化、精准流控等手段的综合运用,确保端到端延迟在 10 微秒范围内。(2)Sc a l e U p 网络采基于开放以太网技术路线,实现面向超节点的 Sc a l e U p 网络,支持几十卡到上千卡超节点规模,卡间带宽高达 800G B/s,远高于 P C I e G e n5 的 128G B/s。图 15 移动云 1024 卡超节点 硬件 开放:超 节点采用 全开放 硬件架构,计算 与交换节 点采用标 准化机型,风冷和液冷灵活配置,单机柜功耗在 4060kW 范围,可以同时适用于训练和推理场景;协 议 适 配:基 于优 化 的 R o C E 协 议 实 现 远 端 内存 访 问,同 时 通 过 适 配 层支持内存语义访问,兼容 A I 大模型训练通信需求;性能指标:跨 G P U 远端访问延迟控制在 300 纳秒以内。2 0 2 5 A I 网 络 技 术 白 皮 书5 1H P N 1.0 通 过积 木式 模块 化设 计设 计思 路,采用 高度 标准 化的、跨 不同 厂商的 G P U 服务器(如 8 卡风冷或液冷 G P U 服务器)与智算交换机(如 51.2T 风冷或液冷智算交换机),通过标准的 A E C 有源铜缆及光纤互联构成。目前移动云新型智算网络架构 H P N 1.0 已在实际智算中心项目中完成落地验证,通 过采 用 标准 化 G P U 服 务器 与开 放 交换 设 备,构建 了 高带 宽、低 延迟 的 智算集群网络,具备快速部署、按需扩展、稳定运行等优势。项目实现了千卡规模的超节点部署,训练效率与网络性能表现优异,展现出良好的工程可复制性与多场景适配能力,为后续多地算力基础设施建设提供了可推广的技术范式。4.2 天翼云智算 项目在生 成式 A I 大模 型驱动下,教育、医疗、汽车等 行业加速 应用落地。天翼云 顺应 A I 发 展趋 势,布 局 大规 模 G P U 智 算资 源 池,重 点构 建 高性 能 A I 训 练集群网络。(1)核心架构与协议图 16:天翼云智算项目核心架构2 0 2 5 A I 网 络 技 术 白 皮 书5 2项目采用多平面物理组网,聚焦参数面网络实现分布式训练参数同步,构建高带宽、低延迟的 A I 训练集群:底层协 议栈:选用 R o C E v 2 协议,实现 R D M A 在以太 网网络中的 传输,仅使用 I B 的“轻量级”传输层,降低设备成本与网络环境需求。无损以太网络:R o C E v 2 使用 U D P 头部来封装 R D M A 相关协议栈内容,结合二层 P F C P a us e 帧与三层 E C N 标记,确保流量低时延、无损转发。(2)硬件选型:L e a f 层采用华为 4 槽 C E 9860 盒式交换机(8400G E 接口);Spi ne 层 选 用 华 为 8 槽 C E 16808/16 槽 C E 16816 框 式 交 换 机(36 400G端口);G P U 服务器搭载昇腾 910B 芯片。(3)组网设计参数面和样本面采用二层 C l o s 架构,Spi ne 与 L e a f 采用 F ul l-M e s h 全互联,运行 e B G P 协议。参数面:服务器使用 8*200G 接口,单轨接入 L e a f 交换机。L e a f 交换机通过32200G 端口下行连接服务器,采用 Y 型一分二线缆与服务器 200G 接口对接,共接入 4 台服务器。其中,单台服务器通过 8 个 200G 网口连接至一台 L e a f 交换机,8 个网口分别配置独立的 I P 地址。L e a f 交换机通过 16400G 端口上行连接至 Spi ne 交换机,Spi ne 交换机端口扇出决定了 A I 集群规模。例如万卡集群需要至 少 313 台 L e a f 接 入,则 选 用 16 台 16 槽 的 框 式 交 换 机,且 单 台 Spi ne 设 备 的400G 端口数大于 313。2 0 2 5 A I 网 络 技 术 白 皮 书5 3样 本 面:服 务 器 使 用 2*100G 双 口 接 入 两 台 L e a f 交 换 机,对 于 G P U 服 务 器的 接入,bo nd 采 用 m o de 1 主 备方 式,对于 H P F S 存 储服 务 器,由 于 可 以运 行 自研 操 作 系 统,实 现 a r p 双 发,接 入 设 计 上 采 用 去 堆 叠 方 案,服 务 器 bo nd 模 式 使用 m o de 4。样本 面 L e a f 交 换机 采用 32 100G 端 口形 态,Spi ne 采 用插 卡框 机,两台 L e a f 设备为一组构成一个 bl o c k,一个 bl o c k 可接入 16 台服务器。样本面的存储服务器和计算服务器之间按照比例配置。业务面:智算业务面接入基于天翼云 4.0 架构设计的通算资源池,服务器采用 2*25G 紫金 D P U,并上联接入天翼云自研交换机。4.3 阿里云 H P N 7.0 新型智算网 络阿 里 云 H P N 7.0 是 面 向 A I 大 模 型 训 练 场 景 设 计 的 智 算 网 络 架 构,其 核 心 目标 是通 过创 新 的拓 扑 设计、多 路 径冗 余 和自 研通 信 技术,解决 万卡 级 G P U 集 群的高性能、高稳定性及可扩展性挑战。(1)架构设计采 用“双 上 联 多 轨 双 平 面”设 计。这 种 设 计 能 确 保 网 络 在 超 高 负 载 下 仍保持高效、稳定运行,满足 A I 大模型对计算资源的高需求。图 1 7 阿里云 H P N 架构双 上联:每台 G P U 服 务器 配 备双 物 理网 卡(或 单 网卡 双 端口),分 别 连接至 不 同 L e a f 交 换 机,形 成 冗 余 路 径。这 种 设 计 提 高 了 网 络 的 可 靠 性 和 性 能,确2 0 2 5 A I 网 络 技 术 白 皮 书5 4保在任一上联链路或接入层交换机发生故障时,网络流量能够自动切换至另一端口,保障训练任务的连续性和稳定性。多 轨:允 许多 个 数据 流 并行 传 输,增 加了 网 络吞 吐 量。每 个 G P U 都 与多 张高 性能 网卡 相 连,通 过多 轨通 信 技术 实 现集 群内 G P U 的 全互 联,优 化了 长 尾时延,为大规模集群计算提供了更加高效和稳定的网络通信支持。双平面:通过双平面转发机制,将网络流量均匀分配至两个独立的网络平面,降低了哈希极化现象的发生概率,优化了网络流量的分配效率和网络的整体性能。硬件配置:配备 51.2T bps 单芯片以太网交换机和 400G 高性能网卡,可实现单层 千卡、两 层万卡的 高性能和 高稳定 性互联,为 A I 大模 型的训练 及推理提 供强大的硬件支撑。(2)关键技术So l a r-R D M A 协议:是一种基于 R D M A 的通信协议,能够实现数据的快速传输和高效处理,可在大规模分布式系统中实现低延迟、高带宽的数据传输,确保A I 大模型的高效运行。So l a r-R D M A 还提供了高精度拥塞控制算法,结合网络负载的动态感知,能够实现对数据流级别的精细控制。A C C L 通信库:是阿里云针对 A I 计算场景专门设计的通信库,优化了 A I 计算过程中的数据传输和同步操作,能显著提升计算的效率和稳定性,为大模型提供稳定可靠的网络通信支持。自 2023 年 9 月大规模部署以来,H P N 7.0 在大模型训练性能方面表现卓越,与上一代架构相比,在典型场景下实现了高达 14.9%的性能飞跃。阿里云通义千问 2.5 版本 大模 型就 是基 于 H P N 7.0 高性 能网 络集 群训 练而 成,其中 文性 能全 面赶超 G P T-4 T ur bo。2 0 2 5 A I 网 络 技 术 白 皮 书5 5目 前阿 里云 已经 推出 了 下 一代 训推 一体 融合 网络 架构 H P N 8.0,旨在 支撑 万卡到 几十 万卡 的超 大规 模智 算集 群。H P N 8.0 采用 全自 研软 硬件 系统,硬 件上 包括 102.4T 大 芯 片 交 换 机、自 研 400G/800G/1600G 光 模 块 与 硅 光 芯 片 等;软 件 上涵盖 A C C L 通信库(拓展至适配多场景)、N i m i t z 容器网络、St e l l a r-R D M A 协议栈 等。架 构 设 计上,B a c k-e nd G P U 互 联 网络 通 过 带宽 升 级、多平 面 扩 展及 协 议增强,支持规模扩大 8 倍和跨地域互联;F r o nt-e n d 网络则实现 N 10 万级别 G P U规模覆盖与 A Z 内全互联,对接 V P C 和存储系统。整体凭借超大集群支持、低时延高可靠及全场景适配等优势,进一步突破 A I 智算的网络瓶颈,为超大规模 A I集群提供核心支撑。4.4 奇异摩尔 A I N e t w or k i n g 全栈解决方 案奇异摩尔成立于 2021 年初,依托高性能 R D M A、网络控制和 C hi pl e t 等核心技术,构建基于开放生态的统一互联架构 K i w i F a br i c,为超大规模 A I 智算芯片/平台提供高性能互联产品及解决方案。奇 异 摩 尔 开 放 统 一 架 构 K i w i F a br i c 的 A I N e t w o r ki ng 全 栈 解 决 方 案,覆 盖 从数据中心级网间互联、芯片级片间互联到芯片内部的深度互联。其核心优势在于:图 18 奇异摩尔 A I N e t w o r ki ng 全栈解决方案2 0 2 5 A I 网 络 技 术 白 皮 书5 6(1)Sc a l e O ut 网间互联:专为 A I 原生定制的超级网卡K i w i SN I C A I 原 生 超 级 网 卡 适 用 于 A I 大 模 型 训 推 集 群 的 北 向 网 络 互 联(网间互联)。产品基于以 太网和下一代 高性能 R D M A 技术,内 建高性能 R D M A 数据传输引擎和 自适应网络调度算法,可 实现 T b 级高速互联、和十万卡级网络拓扑。(2)Sc a l e U p 片间互联:构筑 A I 网络超节点的互联芯粒K i w i G 2G I O D i e 超 节 点 互 联 芯 粒 是 国 内 少 有 的 开 源&通 用 化 超 节 点 互 联 方案;该产品为 C hi pl e t 形态,通过先进封装集成在 X P U 计算芯片内,通过网络接口 和 交 换 机 互 联,支 持 1K A I 网 络 超 节 点,实 现 x P U 芯 片 间 的 T B 级 超 高 速 互联。芯粒内建高性能数据传输引擎和可编程网络控制引擎,支持内存和消息双语义,多种超节点协议,多种拓扑结构。(3)Sc a l e-I ns i de 芯片内互联:破局算力瓶颈,打造高性能芯片K i w i C e nt r a l I O D&3D ba s e D i e 属于行业前沿的 C hi pl e t 芯粒产品;分别对标A M D Z e n 系 列 C P U I O 芯 粒 以 及 I nt e l M e t o r L a ke 异 构 芯 片 内 B a s e D i e(基 于 3D先进封装)。4.5 第一线助力 教育企业私域 A I 落地方案某 教 育 企 业 拥 有 超 300T B 的 多 元 数 据,亟 需 构 建 私 域 空 间 实 现 数 据 存 储、模型训练与部署。第一线 D Y X ne t 为其打造私有向量数据库知识库,结合隐私计算算力完成模型微调,确保数据全流程本地化处理。同时,通过打通企业原有存储与 边缘节点,构建安 全互联网 络,调度 64 台算 力资源完 成模型训 练,并快 速切换至分布 式推理资源,依托 100G bps 高速 A I 内网,实现 数据远程训练与模 型分布 式部署,最终将新 模型部署 至公网 服务用户。第一线 通过 A I 原生 超互联总线架构,为方案提供技术支撑:2 0 2 5 A I 网 络 技 术 白 皮 书5 7图 19 第一线 A I 原生超互联总线架构 网络接入与核心链路:接入侧支持多终端差异化接入,如家庭/企业通过全光直连/F 5G、移动终端通过 5G 网络切片接入;核心层与运营商协作打通关键链路,实现高速安全组网;管理层将园区网络控制面向上迁移,结合区块链技术支持企业整体私域网络管理,简化运维。底层安全隔离:采用 V X L A N、F l e x E、SR v 6 等技术,基于用户维度隔离网络,结合数字身份与密码学,保障数据传输与存储安全。广域 网优化:融合生态 伙伴方 案,运用 加密流 识别与智 能调度技 术,精准处理智算业务,实现千万级流量均衡调度,提升网络吞吐与传输可靠性。远程 R D M A 创新:在架构中应用远程 R D M A 协议,大幅提升数据传输与模型训练效率,如 2000 公里以上传输速度达 T C P 的 20 倍,10km 节点协同训练差距控制在 2%以内。无盘 隐私计算:计算服 务器采 用无盘设 计,数 据算后即 清,通过 动态私有连接与内存计算,确保数据仅存在于当前计算空间,保障隐私安全。2 0 2 5 A I 网 络 技 术 白 皮 书5 84.6 微众银行金 融级智算 A I 网络建设与 实践方案在 人 工 智 能 驱 动 行 业 变 革 的 浪 潮 中,微 众 银 行 率 先 提 出 向“A I 原 生 银 行”转型 的战略目 标,构建 了覆盖 A I 基础 设施、应 用与治理 的三层能 力体系。面对大模 型时代算 力网络的 核心挑战,微众银 行于 2025 年推 出金融业 首款自研 交换机 W B 3000,打造“白盒硬件 开源系统 自研智能管控”全栈自主可控的智算网络解 决方案,为千卡级 A I 训练 与推理提 供高速网 络底座,助力金 融服务迈 向智能化新阶段。微众银行以分层解耦架构破局,实现性能与自主可控的双重突破:图 20 微众银行 A I 智算网络 硬 件 层 革 新:基 于 国 产 12.8T 交 换 芯 片 与 信 创 C P U 打 造 白 盒 交 换 机W B 3000,支 持 32 个 400G 端口 和 1.6T R D M A 接入 能力,适 配主流 G P U/N P U 算力卡。通过核 心部件 100%国产 化与非核 心部件替 代清单,建网成 本降低 70%,打破商用方案垄断;系 统 层 创新:基 于 开 源 SO N i C 深 度 定 制 W e N O S 网 络 操 作系 统,首 创 链路级负载分担组件 L i nk-SL B。通过预配置确定性哈希路径解决 E C M P 拥塞问题,2 0 2 5 A I 网 络 技 术 白 皮 书5 9实测集合通信带宽提升 40%,并实现毫秒级故障切换。微众银行由此成为全球首家入选 SO N i C 贡献组织的金融机构;智能管控突破:自研管控系统融合 T e l e m e t r y 秒级采集与 s F l o w 流量分析,实时 感知端口 拥塞并自 动调度至 最优路 径。结合 A I 训练 任务动态 回收策略,构建“采集-定位-调度-回收”全闭环智能运维体系,大幅降低人工干预需求。4.7 益思芯创新 智能网卡解决方案益思芯科技精准切入制约 A I 集群效率的诸多痛点,打造了全系列基于 F P G A的智能网卡产品,为 A I 场景提供强大网络加速引擎。其技术核心在于 P 4 可编程网络处理能力与深度硬件卸载架构:创新的自主知识产权 D SA P 4 引擎支持灵活定制 A I 工作流,实现网络功能的动态优化;全 硬 件 加 速 的 R o C E v 2 引 擎 为 A I/H P C 集 群 提 供 超 低 延 迟 R D M A 网 络,突破跨节点通信性能限制;云 原 生 N V M e-o F 共 享 存 储 加 速 引 擎 则 通 过 硬 件 卸 载 N V M e 协 议,将 本地存储的高性能扩展至网络共享环境,大幅提升分布式 A I 训练的数据吞吐效率。益思芯产品如 St a r g a t e-R 2100 R D M A 智能网卡(2x 100G)及 St a r g a t e-S110 0存储 加速卡,已在云厂 商和智算 中心实 际部署,验证了其 在 A I 模型 训练与大 数据分析场景中显著降低时延、提升带宽利用率的实效。该方案的优势不仅在于单卡性能,其完整的智能网卡产品线覆盖从 25G 到 100G,全面对标国际领先水平,更 构 建 了 面 向 A I 的 开 放 生 态,无 缝 集 成 D P D K/SP D K 开 源 库,支 持 云 原 生 驱 动及国 密安全算 法,为 A I 基础 设施提供 从网络通 信、存储 访问到 数据安全 的端到端加速。2 0 2 5 A I 网 络 技 术 白 皮 书6 0第 5 章 N e t w o r k f o r A I 未 来 发 展 及 展 望本 章 前 瞻 性 探 讨 N e t w o r k f o r A I 未 来 发 展 趋 势,为 产 业 发 展 提 供 战 略 性 思 考与展望。5.1 未来发展趋 势(一)网络与 计算深度融合网络与计算的深度融合将成为推动 A I 发展的关键力量。随着 A I 应用的不断拓展,数据传输与处理的实时性需求愈发迫切,促使网络从单纯的数据载体向具备强大计算能力的智能平台转变。网络边缘将具备实时处理海量数据的能力,减少数据传输延迟,推动自动驾驶、工业互联网等时延敏感的应用走向成熟。计算与网络的深度融合,将实现算力资源的动态调配与高效利用,用户通过网络即可便捷获取所需算力,加速 A I 应用的落地与普及。(二)A I 网络定制化演 进网 络 将 针 对 A I 应 用 的 多 样 化 需 求,构 建 更 具 适 配 性 的 支 撑 体 系。针 对 A I训练阶段对海量数据传输的需求,网络将通过优化传输协议、提升带宽利用率,实现 大规模数 据集的高 效分发与 同步,缩短模型 训练周期。对于 A I 推理 场景,网络会重点保障低时延与高可靠性,通过动态调整路由策略、优先调度推理请求等方式,确保实时交互类 A I 应用的流畅运行。同时,网络将建立弹性伸缩机制,根据 A I 任务的算力需求变化,自动调整资源分配,为 A I 模型的迭代优化和规模化部署提供稳定、高效的底层支撑。(三)生态开 放与协同创新生态的开放与协同创新是未来发展的核心驱动力。硬件层面,各厂商联合研发适配 A I 计算与网络传输的高性能硬件,提升系统整体性能与效率。软件方面,2 0 2 5 A I 网 络 技 术 白 皮 书6 1开源 社区汇聚 全球开发 者智慧,加速 A I 框架、算法与 网络协议 的创新迭 代,推动 技 术 的 快 速 发 展 与 广 泛 应 用。跨 行 业 的 深 度 合 作 将 催 生 更 多 创 新 应 用,利 用A I 网络提升服务质量与效率,促进社会各领域的数字化、智能化转型。(四)绿色低 碳网络基础设施绿色低碳的网络基础设施将成为未来发展的重要方向。主要路径包括:架构级 节 能,通 过去 中 心 化 算 力 调 度、液 冷/自 然 冷 却 技 术、高 集 成 度 设 备 降 低 基 础能耗;全生命周期绿色化,从芯片设计、设备制造、到数据中心规划贯彻绿色理念;同时,加大对太阳能、风能等可再生能源的利用,为网络基础设施提供可持续的能源支持,助力实现网络发展与环境保护的双赢。5.2 未来展望及 建议(一)对技术 研发的建议(1)推 动网络赋 能 A I 的技 术标准化 与模块 化:制 定网络支 撑 A I 应用 的通用技 术标准,明确实时 推理、大 规模训 练、分布 式协同等 不同 A I 场景 下的网络性能量化指标,统一接口协议与数据交互格式。同时,研发模块化的网络功能组件,如可插拔的 A I 任务适配模块、标准化的资源调度插件等,让不同行业的 A I开发者能快速调用网络功能,无需关注底层技术细节。通过标准化与模块化降低技术适配成本,加速网络赋能 A I 的规模化落地。(2)突破关键技术瓶颈:针对 A I 网络中的算力、存储、传输等关键环节,持续投入研发,突破性能瓶颈。例如,研发面向 A I 计算的专用网络芯片和设备,提升网络传输带宽和降低时延;探索新型网络架构,如光电融合网络、量子网络等,为 A I 应用提供更强大的基础设施支撑。此外,还需关注 A I 模型的小型化、轻量化技术,使其能够在边缘设备上高效运行。2 0 2 5 A I 网 络 技 术 白 皮 书6 2(3)注重跨领域技术协同创新:打破网络技术与 A I 研发、垂直行业应用之间的壁垒,搭建集技术研发、测试验证、成果转化于一体的协同平台。推动网络通信专家、人工智能专家、行业应用开发者共同参与,联合定义网络需求指标,协作开发适配性技术方案。例如,在工业 A I 领域,网络团队与制造业专家合作,根据 生产线的 实时性要 求定制低 时延网 络协议,同时结合 A I 算法 优化设备 数据的采集与传输策略,实现技术创新与行业需求的精准对接。(二)对产业 发展的建议(1)构 建开放共 赢的产业 生态:鼓 励产业链 上下游企 业加强 合作,共 同打造开放、协同、共赢的 A I 网络产业生态系统。支持开源社区发展,推动 A I 网络相关技术标准和规范的制定,降低技术门槛,促进技术普及和应用。通过建立产业联盟、合作平台等形式,汇聚各方力量,共同推动产业创新和发展。(2)拓展多元化应用场景:推动 A I 技术与实体经济深度融合。例如,在智能制造、智慧城市、自动驾驶、医疗健康等领域,结合具体业务需求,开发定制化的 A I 网络 解决方案,创造新 的商业模 式和增 长点。通 过示范项 目和标杆 案例的推广,加速 A I 网络技术的普及和应用。(3)加强国际交流与合作:积极参与全球 A I 网络技术标准和产业发展规则的制定,提升我国在国际 A I 网络领域的影响力。鼓励国内企业与国际领先企业、研究机构开展技术交流和项目合作,共同应对全球性挑战,实现互利共赢。2 0 2 5 A I 网 络 技 术 白 皮 书6 3第 二 部 分 A I f o r N e t w o r k:A I 赋 能 的 网 络智 能 化 升 级第 6 章 A I 驱 动 的 网 络 智 能 化 发 展在数字化转型纵深推进的背景下,网络作为连接物理世界与数字世界的核心枢纽,正面临规模与复杂度增长、业务需求多元化、安全威胁复杂化等多重挑战。传 统 依 赖 人 工 配 置 的 静 态 网 络 架 构 与 被 动 响 应 式 运 维 模 式 已 难 以 支 撑 动 态 异 构的网络环境运行需求。这一矛盾驱使网络技术范式发生本质跃迁,从以连通性为核心的连接型网络,向以认知自治为目标的智能型网络跨越。本章将系统剖析网络智 能化发展 的内在驱 动力 和 升级 流程,为 全面理解 A I 赋能 网络的深 层逻辑与未来愿景奠定理论框架。6.1 网络管理的 挑战(一)网络规 模与复杂度持续增长随着 5G/6G、物联网、大数据等技术的快速发展和广泛应用,全球网络规模正呈现爆发式增长。网络所承载的业务类型、服务对象、接入设备均向多元化演进,这种规模和复杂度的激增导致网络拓扑日趋繁杂、协议种类愈发多样、人工管理配置难度呈指数级增长。因此,如何有效应对日益增长的网络复杂性,已成为推动网络智能化升级的首要驱动力。(二)运维效 率与成本控制压力网络规模的持续扩大与架构的日益复杂,使得传统运维陷入效率与成本的双重困境。传统以人工为主、依赖静态规则和专家经验的运维模式,响应速度慢、故障定位时间长且需要投入大量专业人力,在面对海量告警、复杂故障和动态业2 0 2 5 A I 网 络 技 术 白 皮 书6 4务需求时,已显得力不从心。运维效率滞后、成本高昂与服务质量不稳定的矛盾愈发突出。为突破这一困境,网络运维亟需从事后救火的被动响应模式转向事前预警的主动防御体系,从人工干预转向自动化智能化范式,以实现网络资源的优化配置和高效利用。(三)业务体 验与网络性能优化需求在数字化时代,用户对网络服务的期望越来越高,对业务体验的感知也越来越敏感。在线游戏、自动驾驶、工业互联网等业务对网络带宽、时延、抖动和可靠性提出了极致要求。传统网络在面对突发流量、局部拥塞或设备故障时,往往难以快速响应并进行自适应调整,从而导致业务体验下降、卡顿甚至中断。智能化网络能够实时感知业务流量特征,精准识别应用类型,并通过智能流量调度和动态路径规划等技术,将资源按需实时地分配给最需要的业务,从而确保关键业务的极致体验。(四)安全威 胁防护的智能化需求网络边界的模糊化和攻击手段的多样化,使得网络安全防护面临严峻挑战。高级持续性威胁、零日漏洞、分布式拒绝服务攻击等新型网络攻击具有隐蔽性强、传播速度快、破坏力大等特点。为了有效应对不断演变的安全威胁,网络安全防护需要从静态防御向动态感知和自动化响应转变。这种智能化的安全能力可以更快地发现未知威胁,自动执行隔离和阻断策略,构建起一个能够自我学习、自我适应的动态安全防护体系。6.2 网络智能化 演进体系在网络智能化演进浪潮中,业界普遍采纳了自智网络等级划分的评估体系,等级越高代表网络的自动化和智能化程度越强,这一标准为网络智能化的发展提供了清晰的演进路径和目标。2 0 2 5 A I 网 络 技 术 白 皮 书6 5图 21 自智网络等级划分 L 0 人工运维:这是网络运维的最初阶段,系统仅能提供基础的辅助监控功能,所有关键操作,无论是配置下发还是状态查询,都完全依赖人工通过命令行完成。网络管理效率极低,且极易因人为操作失误引发各类问题,难以适应网络规模扩大的基本需求。L 1 辅助运维:针对网络运维中具有明确规则、重复性高的任务,通过专门的工具或脚本实现批量操作。这一阶段借助工具,在一定程度上减轻了人工负担,提高了网络运维管理工作的执行效率和用户对网络管理的感知效率,但本质上仍依赖人工定义的规则,智能化程度有限。L 2 部分自智网络:系统能够依据人工预先定义的策略,辅助用户实现部分网络运营管理工作流程的闭环操作,最终的决策权力仍掌握在用户手中。网络在部分场景下展现出一定的自主性,但整体仍受限于人工设定的框架。L 3 条件自智网络:系统的智能化分析能力得到显著提升,可以自动感知网络状态与资源信息,还具备事前评估、事后自动验收以及问题自动定位等能力。基于人工定义的闭环自动化策略,系统能够实现部分特定场景的闭环管理,网络自主性进一步增强。L 4 高 度 自智 网 络:相 较 于 L 3 阶 段,其 网 络 智能 化 程 度 实现 了 跨 越式 提升。系统能够主动感知网元及整个网络的状态,通过趋势分析预判潜在风险,并主动采取优化措施,确保网络持续满足业务需求。2 0 2 5 A I 网 络 技 术 白 皮 书6 6 L 5 完全自智网络:这是自智网络发展的终极目标。此时的网络能够实现完全自主运行,无需任何人工干预,系统具备完全自主的决策能力,可实现自我演进、自我适应、自我修复和自我优化。当 前,自 智 网 络 产 业 正 处 于 从 L 3 条 件 自 智 网 络 加 速 迈 向 崭 新 的 L 4 高 度 自智网络的阶段。根据 T M F o r um 的评估,全球 91%的运营商已制定自智网络长期战略并追加投资,70%的通信服务提供商将投资网络基础设施,以实现自动化。自智网络产 业白皮书 6.0中明确提出 面向 2030 年分两个阶段 实现 L 4 目标:2025 年到 2027 年实 现单域“维优 营”场景 自智闭环,2028 年到 2030 年实 现跨域复杂场景端到端闭环。中国三大运营商更是进一步聚焦于高度自智网络的顶层设 计,计 划 在 2025 年 初步 实 现 高价 值 场 景的 L 4 高 度 自 智目 标。L 4 自 智网 络 的核心特征主要体现在以下几个方面:意图 驱动:网 络能够精 准理解 用户或特 定业务 的高阶意 图,并将 这些意图自动、智能地分解转化为网络可执行的低阶策略和指令,整个过程无需人工干预翻译,即可驱动业务目标的实现。全生 命周期闭 环控制能 力:系 统能够对 网络状 态进行实 时监测,结合智能根因分析做出自主决策并执行,形成涵盖规划、部署、运维、优化等网络全生命周期的端到端闭环控制,大幅提升网络管理的效率和精准度。跨域协同与优化能力:L 4 自智网络能够有效协同和优化不同网络域的资源和功能,打破了传统网络管理的壁垒,实现了网络全局最优配置。预测性维护与自愈能力:借助大数据分析和 A I 模型,系统具备强大的预测能力,能够预判潜在的网络故障和性能劣化趋势,并主动采取预防措施或自主进行修复。6.3 网络智能化 升级流程2 0 2 5 A I 网 络 技 术 白 皮 书6 7网络 的智能化 升级是 一个以 A I 技术 为核心驱 动力,通过“全域 感知、智 能分析、自主决策、执行与保障”四个阶段形成完整闭环的动态演进过程。这一流程从 对网络全 域状态的 精准感知 入手,依托 A I 智能 算法对海 量数据进 行深度分析与挖掘,进而基于分析结果生成最优化的网络控制策略与资源调度方案,随后精准、自动化地实施决策指令,动态调整网络行为,同时辅以全流程的隐私保护,环环相扣、持续迭代,最终实现网络的智能化跨越。6.3.1 全 域 感 知全域感知是网络智能化升级的基石,通过对网络中的设备状态、网络流量、环境状态等进行全方位、实时的数据采集和状态监测,为后续的分析、决策、执行提供数据支撑。网络流量是网络运行状态的直接反映。传统流量分析依赖端口、协议等静态特 征,难 以 应 对 复 杂 网 络 环 境 和 加 密 流 量 挑 战。A I 的 引 入,特 别 是 机 器 学 习 和深度学习算法的应用,使得网络能够从海量的流量数据中自动学习和提取高维特征,从而实现对流量模式的智能识别、异常行为的精准检测以及应用类型的细粒度分类。时空数据进一步丰富了感知的维度。网络是一个不断演化的复杂系统,其状态不仅随空间变化,也随时间演进。时空序列预测模型和时空图神经网络(ST G N N,Spa t i o-T e m po r a l G r a ph N e ur a l N e t w o r k)等技术能够捕捉数据随时间、空间演进的依赖关系,通过对历史数据的学习,精准识别正常波动与异常模式,揭示网络行为的内在规律,预测潜在风险。在网络持续运行的过程中,会实时生成海量且异构的数据类型,这些数据呈现出非结构化、结构化、时序化、图形化等不同模态特征,单一模态数据的孤立分析往往只能捕捉局部信息,难以全面反映网络的复杂状态。基于深度神经网络2 0 2 5 A I 网 络 技 术 白 皮 书6 8(D N N,D e e p N e ur a l N e t w o r ks)的多模态数据融合方法在多个领域展现出优异的性能。多模态数据融合基于深度学习的四维分类体系,提出编码器解码器模型、注意力机制、图神经网络与生成神经网络四类数据融合方法。基于 编码器 解码 器模型的 方法中,编码器 将输入数 据转化 为保留关 键语义的潜在表征并过滤噪声,解码器再据此生成预测结果。基于 注意力机 制的方法 通过为 输入数据 各部分 分配差异 化权重,精准提取任务相关信息,在不增加计算成本的前提下提升预测精度。基于 图神经网 络的方法 则在图 结构构建 阶段直 接融合多 模态数据,区别于先提取特征后融合的模式,将融合前置到表征学习前。基于 生成神经 网络的方 法借助 生成模型 的表征 能力,将 不同模态 映射到共享潜在空间,通过对抗训练或联合优化实现模态特征的对齐与互补。6.3.2 智 能 分 析智能分析通过数字孪生、实时仿真与预测推演以及因果推理与根因定位等技术对感知层获取的数据进行深度挖掘与认知转化,从而揭示网络运行的深层规律、诊断复杂故障、预测潜在风险,并为后续的智能决策提供科学依据。数字孪生通过构建物理网络的全要素虚拟映射,将感知层采集的数据统一注入孪生体,形成“物理网络-虚拟孪生体”的实时同步 机制。孪生体能够实 时、高保真地映射物理网络的运行状态、性能指标、故障情况等,并通过仿真模拟和数据分析,实现对物理网络的实时监控、仿真和预测,为网络优化、故障排查、安全防护等提供更全面的决策分析。基于数字孪生构建的虚拟空间,实时仿真与预测推演通过动态推演能力,使用户能够很好地模拟、选择、优化解决方案,最终将它们部署到实际网络中,这将降低对实际网络的影响力,减少一定的安全风险。同时可对网络未来状态进行2 0 2 5 A I 网 络 技 术 白 皮 书6 9多维度模拟,利用大数据处理和建模技术实现对现状的评估、对过去的诊断和对未来的预测,模拟各种可能性,以提供更全面的决策分析。因果推理与根因定位是网络智能运维的核心能力之一。在复杂且动态变化的网络环境中,故障或性能问题往往不是孤立发生的,而是由多个因素相互作用、层层递进导致的。传统基于规则或相关性的分析方法在面对海量告警和复杂故障时,往往难以准确识别问题的根本原因,导致故障排除效率低下,甚至误判。因果推理技术通过挖掘事件间的因果机制而非统计相关性,为网络故障诊断提供了从“现象描述”到“本质溯源”的认知升级,而根因定位则依托因果关系链实现故障 源头的精 准追溯与 预防性治 理。通 过 A I 技术,网络能 够从海量 数据中洞 察事件的深层因果关系,实现从发现问题到解决问题的智能闭环,从而显著提升网络的韧性、稳定性和运维效率。6.3.3 自 主 决 策决策的本质是将分析环节产生的洞察转化为跨域、动态、最优的网络操作策略。通过与知识图谱、意图驱动网络、大模型等技术融合,决策已逐步由依赖专家经验转向数据驱动、自主演化的智能体范式,朝着可泛化、可适应、可解释的方向演进。知识图谱是一种以图结构描述网络实体及其关系的语义网络模型,通过图结构精准映射网络实体(如路由器、基站、终端设备)与实体间关系,将网络运维、资源 调度等场 景所需的 碎片化信 息转化 为结构化 知识网络,为 A I 驱动 的网络决策提供具象化知识支撑。在技术实现上,知识图谱构建主要包括知识抽取、知识融合、知识存储和知识应用四个环节。意图驱动网络旨在通过主动理解用户意图,将用户或业务的高层级目标转化为可执行的网络配置策略。传统网络决策中,决策目标往往局限于网络自身的技2 0 2 5 A I 网 络 技 术 白 皮 书7 0术指标,与业务意图的衔接需要人工介入,容易导致决策与实际需求脱节。而意图驱动网络通过自然语言处理、知识图谱等手段,直接解析业务方的抽象意图,并将其转化为网络可理解的量化指标。这些指标会作为协同决策的核心约束条件,贯穿多域协同、动态适配的全过程,确保决策结果从源头就与业务目标保持一致。尽管 A I 在决 策方面展 现出强 大能力,但在当 前阶段,完全的自 主决策 仍面临挑战,尤其是在涉及高风险、高价值或需要人类经验判断的场景。因此,人机共 生 决 策 是 一 个 重 要 的 研 究 方 向。A I 可 以 作 为 人 类 专 家 的 强 大 辅 助,提 供 多 维度的分析结果、推荐决策方案,甚至模拟不同决策方案可能带来的影响,从而帮助专 家做出更 明智的判 断。同时,人类 专家的反 馈和修正 也可作为 A I 模型 持续学习和优化的重要输入,形成一个正向的决策闭环。这种人机协同模式,既发挥了 A I 在数 据处理和 模式识别 方面的优 势,又 保留了人 类在复杂 情境判断 和伦理考量等方面不可替代的作用。6.3.4 执 行 与 保 障执行与保障环节是将协同决策转化为实际网络动作,并确保整个智能化体系稳定运转的“最后一公里”。执行与保障旨在构建一个高度自动化、可编程、可验证的体系,确保网络能够快速、精准地响应智能决策,并持续维持其健康高效的运行状态。执 行 的 核 心 在 于 将 生 成 的 决 策 或 策 略 通 过 自 动 化 手 段 精 准 地 部 署 到 网 络 设备和 系统 中,这要 求网 络具备 高度 的可编 程性和 自动 化能力。SD N 和 N F V 为网络的自动化执行提供了坚实的基础。SD N 通过将控制平面与数据平面分离,实现了网 络的集中 控制和可 编程性,使得 A I 决策 可以直接 通过控制 器下发到 网络设备。N F V 则 将 网 络 功 能 从 专 用 硬 件 中 解 耦,以 软 件 形 式 运 行 在 通 用 服 务 器 上,这使得网络功能的部署、伸缩和调整变得更加灵活。基于此,可以利用自动化工2 0 2 5 A I 网 络 技 术 白 皮 书7 1具或自定义的编排引擎,将复杂的网络配置、策略调整、服务部署等操作封装成可重复执行的自动化流程。保障是确保网络在智能执行后能够持续稳定、高效运行的关键环节,它涵盖了对执行效果的验证、网络状态的持续监控以及异常情况下的自我修复。意图执行保障对齐用户意图与系统行为,通过策略一致性验证和效果实时反馈,保障精准执行的可靠性。策略一致性验证确认系统中各个组件或代理的策略之间不存在冲突,并且与系统的整体目标保持一致。执行效果实时反馈通过构建“指标感知-偏差识别-根因分析-动态调整”的实时响应链路,及时纠正偏差并优化后续决策。隐私保护是网络智能化升级全流程面临的一大挑战,如何在利用多方数据的同时,有效保护数据隐私和安全,是一个亟待解决的问题。以联邦学习为代表的隐私保护联合分析技术,为这一难题提供了切实可行的解决方案。作为一种分布式机器学习框架,联邦学习的核心优势在于让各参与方无需共享原始数据的前提下,通过加密的模型参数或梯度交换联合训练全局模型。在实现数据“可用不可见”的同时,充分释放多源数据的联合价值,为网络智能化的合规演进提供了技术支撑。2 0 2 5 A I 网 络 技 术 白 皮 书7 2第 7 章 A I 赋 能 网 络 的 关 键 技 术网络智能化要求网络具备自主感知、决策、执行和进化能力,无需人工干预即可适配复杂动态的业务需求与网络环境。意图驱动网络、数字孪生网络以及智能网络大模型被视为网络升级的重要技术抓手。这些技术通过引入智能化、自动化和数据驱动的手段,推动网络向更高阶段演进。7.1 意图驱动网 络7.1.1 意 图 驱 动 网 络 的 定 义 和 架 构(一)意图驱 动网络的定义意图驱动网络是一种以用户意图为核心驱动的网络管理模型,旨在通过自动化、智能化手段实现网络的配置、优化与维护,其核心思想是将用户的业务目标或需求抽象为高层次的策略,并通过算法和系统自动将这些策略转化为具体的网络操作指令,确保网络状态与用户意图的一致性,最终提升网络管理效率,降低运维复杂度。意图驱动网络的核心理念体现在以下方面:以用 户意图为 核心:网 络的设 计与运行 以用户 的业务需 求为导向,通过分析用户意图,自动调整网络资源分配和策略。自动化与智能化:利用人工智能和大数据等技术,实现策略的自动生成、优化和执行,减少人工干预。全场 景网络自 治:基于 网元、资源、服 务与业 务四个管 理层次,构建分层协同的体系化能力,支持跨域网络的统一管理和动态调整,从而提升网络的灵活性与适应性。(二)意图驱 动网络的体系架构2 0 2 5 A I 网 络 技 术 白 皮 书7 3意图驱动网络架构自顶向下主要分为三层,分别业务应用层、意图使能层和基础设施层。各层通过标准化接口实现交互,形成业务意图驱动,网络能力响应的协同体系。图 22 意图驱动网络架构业务应用层主要负责生成意图,覆盖不同场景下的各类服务需求。意图可分为直接和间接两种:直接意图是面向管理平面的网络管理需求,可通过应用层直接表达;间接意图则强调用户个体意图,这类意图通常隐藏在用户操作或业务系统运行中,需通过分析行为数据自动提取。业务应用层通过意图使能层提供的编程接口对底层设备进行编程,抽象化网络元素,并通过管理接口实现业务创新多样性。意图使能层是意图驱动网络的核心,具备管理控制与策略决策能力,主要包括意图策略映射、管理与编排系统、智能引擎和闭环验证四部分。意图使能层接收来自北向接口的意图流,将其转化为当前网络可执行的规范化意图请求后,通过算法将意图中的抽象需求映射到具体的网络资源。基于意图的管理与编排系统可实现资源的统一调度,并通过闭环管理实现网络设备全生命周期监控。借助智2 0 2 5 A I 网 络 技 术 白 皮 书7 4能引擎完成数据收集、数据存储、数据处理、模型训练和参数调整等功能,为策略制定提供先验经验。同时,闭环验证确保了输出的网络配置参数的可靠性。基础设施层包含各类物理设备实体,并部署大量网络数据采集工具,负责提供反馈信息和策略执行所需的基础资源。北向接口是连接业务应用层和意图使能层的意图转换模块。意图编译和意图求解器实现意图的表示和一致性检查。南向接口基于虚拟化技术连接各类网络元素设备,主要用于基础设施层和意图使能层之间的交互,并虚拟化计算和通信资源,实现灵活分配。7.1.2 意 图 驱 动 网 络 的 关 键 技 术意图驱动网络的实现是一个从用户需求输入到目标动态达成的闭环过程,首先需要获取到用户所提出的网络需求(即意图),将接收到的意图转译成网络策略,并根据当前的网络状态验证策略的可执行性,之后将通过验证的策略下发到实际网络中。此外,系统还要实时地监控网络状态,确保用户意图正确实现,并将结果反馈给用户。(一)意图获 取意图获取的核心任务是准确捕获用户或系统的业务目标与需求,并将其转化为网络系统可处理的初始输入。由于用户意图的表达形式多样,可能涉及不同层级的业务目标或存在语义模糊等问题,因此意图获取需要兼顾灵活性、准确性和全面性,确保网络真正理解用户想要什么。从意图的来源来看,意图获取覆盖了“外部输入”与“内生生成”两大渠道。外部输入意图主要来自用户的主动表达,是最常见的意图形式。用户可通过自然语言、图形化界面、A P I 接口等多种方式提交需求,意图获取模块需要兼容这些多样化的交互方式,并从中提取核心需求。内生生成意图则是网络系统基于自身2 0 2 5 A I 网 络 技 术 白 皮 书7 5感知与分析自动产生的目标,体现了网络的自主性。这类意图通常源于对网络状态、业务运行数据的监测。内生意图的获取依赖于网络的全域感知能力,通过收集设备状态、流量变化、故障告警等实时数据,结合历史趋势分析,主动识别潜在需求,从而实现未雨绸缪的智能管理。意图获取的质量直接影响整个意图驱动网络的效能。若意图捕获不完整,可能导致策略生成偏差;若语义理解错误,则可能引发网络操作失误。因此,这一环节通常会结合机器学习模型持续优化,通过分析历史意图的执行效果,将反馈信息用于感知与预处理算法的迭代升级,逐步提升意图获取的准确性与鲁棒性。(二)意图分 析与转译意图分析与转译负责将捕捉到的高级、抽象的意图转化为底层网络可执行的具体策略,是一个由抽象向具体转化的过程。在意图分析阶段,核心目标是深入理解意图的本质需求,为后续转译提供清晰的目标蓝图。系统会对标准化意图模型中的字段进行拆解,提取关键要素,包括目标对象、期望指标、约束条件以及优先级。意图分析还需处理潜在的冲突与依赖关系。当多个意图同时存在时,系统需通过冲突检测机制识别矛盾点。在完成意图解析后,将进入“从目标到操作”的转译过程,即根据分析结果生成网络可执行的细粒度策略。这一过程需结合网络拓扑、资源状态、业务特征等实时数据,通过算法模型将抽象意图映射为具体配置。策略有不同程度的抽象,越往上层抽象程度越高。从 SN M P 到 P B N M 再到 I D N M,策略抽象程度的递进本质上是技术屏蔽能力的升级,逐步剥离底层设备的型号差异、协议细节、拓扑结构等繁杂信息,最终让用户只需关注“需要网络提供什么服务”,而非“网络如何提供服务”。2 0 2 5 A I 网 络 技 术 白 皮 书7 6图 23 意图-策略金字塔模型意图分析与转译并非单向过程,而是与网络状态形成动态反馈。当转译过程中发现资源不足或约束无法满足时,系统会反向反馈至意图获取环节,请求用户调整意图或补充约束条件。这种闭环反馈确保了意图与网络能力的匹配,避免无效操作。(三)策略验 证策略验证的核心目标是在策略下发至实际网络前,通过系统性校验确保策略的可行性、正确性及安全性,并满足用户意图的预期效果。从验证目标来看,策略验证需覆盖四个核心维度:首先是策略与意图的一致性,即校验转译生成的策略是否准确映射用户原始意图,避免因转译偏差导致目标偏离。其次是资源与约束的可行性,即检查策略所需的网络资源是否充足,以及是否满足时间、地理等约束条件。接着是策略的冲突检测,识别并解决策略间的矛盾。最后是安全性验证,即验证策略是否存在潜在风险,确保策略执行后不会影响网络整体稳定性。在技术实现上,策略验证主要依赖数字孪生与形式化验证两种核心方法。数字孪生技术通过构建与物理网络实时同步的虚拟镜像,将待验证策略注入虚拟环2 0 2 5 A I 网 络 技 术 白 皮 书7 7境中模拟执行,全方位监测网络状态变化。形式化验证则通过数学建模将策略转化为逻辑表达式,利用定理证明、模型检测等工具校验策略的正确性。在实际应用中,两种方法常结合使用。验证完成后需将结果反馈至上游模块:若策略通过验证,则允许策略进入下发流程;若存在问题,则明确标注错误类型及建议调整方向。策略验证通过系统化的技术手段,在策略执行前全面排查潜在风险,确保意图转化的准确性与网络运行的稳定性。随着网络异构性与业务复杂性的提升,策略验证将进一步融合人工智能技术,实现从被动验证到主动预防的升级。(四)意图下 发与执行意图下发与执行是指将经过验证的网络策略精准高效地部署到网络中,并通过实时监控确保意图的最终落地。在意图下发阶段,系统首先需完成意图的分层传递与域间协同。由于网络通常由多个域构成,而单一意图可能涉及跨域资源调度,因此下发过程需遵循“分层解耦、协同联动”的原则。下发过程中,系统需具备柔性调度能力,以适应网络的动态变化。同时,下发过程支持优先级机制,对于高紧急度意图,可中断低优先级意图的执行资源,实现秒级响应。意图执行阶段的核心是将下发的策略转化为网络设备的具体配置,并通过实时感知确保执行效果。为确保执行的准确性,系统引入双闭环监控机制:内层闭环聚焦单域执行效果,由域内控制器实时校验设备配置与策略的一致性;外层闭环则关注端到端意图达成情况,通过跨域数据聚合,判断整体意图是否满足。若发现偏差,系统会自动触发局部优化,无需人工干预。在复杂场景中,意图执行还需具备自适应演进能力。系统通过内生感知能力动态调整执行策略,无需用户重新输入意图。(五)意图的 实时反馈2 0 2 5 A I 网 络 技 术 白 皮 书7 8意图的实时反馈是指通过持续采集、分析网络运行数据,将意图执行后的实际效果与预期目标进行比对,并将结果实时反馈至上游模块,为意图的动态调整提供依据。其核心目标包括:验证意图执行效果:通过实时数据确认策略是否实现了用户意图。动态 调整策略:当网络 状态与 意图要求 不符时,触发策 略修正或 资源重新分配。提升 网络自愈 能力:通 过闭环 反馈机制,使网 络具备自 动检测故 障、预测风险并快速恢复的能力。优化 资源利用 率:基于 实时数 据动态调 整资源 分配,避 免资源浪 费或不足。实时反馈涵盖三类关键信息:一是业务指标达成情况,即直接反映意图目标的核心参数。这些指标通过部署在网络节点的传感器、探针或内置监控工具实时采 集。二 是 网 络 资源 状 态,包括 链 路 负 载、设 备 C P U 利 用 率、内 存 占 用、能 源消耗等,用于评估策略执行对网络整体资源的影响。三是异常事件与故障告警,如链路中断、设备故障、安全攻击等突发情况,这些信息需以最高优先级上报,确保系统快速响应以避免意图失效。7.2 数字孪生网 络7.2.1 数 字 孪 生 网 络 的 定 义 和 架 构(一)数字孪 生网络的定义数字孪生网络是以数字化方式创建物理网络实体的虚拟孪生体,通过实时数据交互实现虚实映射,支持网络全生命周期管理的智能化网络系统。在该系统中,各种网络管理和应用可利用数字孪生技术构建网络虚拟孪生体,基于数据和模型2 0 2 5 A I 网 络 技 术 白 皮 书7 9对物理网络进行高效的分析、诊断、仿真和控制,助力网络实现低成本试错、智能化决策和高效率创新,实现网络的高水平自治。数字孪生网络包括数据、模型、映射和交互四大核心要素。图 24 数字孪生网络核心要素 数据 为整个系 统提供底 层支撑,采集物 理网络 的设备参 数、拓扑 关系、运行状态等全量数据,为模型构建、状态评估和决策分析提供依据。模型 负责构建 虚拟网络 的数字 化表示,为模拟 网络元素 和资源的 配置、状态或使用变化提供了基础。映射 是数字孪 生网络实 现虚实 对应的关 键机制,确保虚 拟孪生体 与物理网络在结构、状态和行为上的高度一致性,可替代物理网络进行仿真、推演与决策。交互 是连接物 理网络与 虚拟孪 生体的桥 梁,实 现物理网 络与虚拟 孪生体之间的实时数据传输与控制指令下发,确保虚实状态同步。数字孪生技术中常提到物理实体和数字孪生体的概念,数字规划体则是基于网络自治特点提出的新概念。物理实体是数字孪生网络映射的对象,指构成通信2 0 2 5 A I 网 络 技 术 白 皮 书8 0网络的所有物理基础设施及相关要素,是虚拟空间建模的原型。对于硬件而言,就是硬件形态本身;对于软件而言,是软件的载体,如镜像文件、软件代码等。数字孪生体是物理实体在虚拟空间的数字化复现,通过数据建模与实时映射,精准反映物理实体的配置、状态及行为规律,与物理实体状态保持同步,是数字孪生网络的核心载体。数字规划体是基于物理实体当前状态与未来目标,通过智能化规划生成的前瞻性数字化模型,是网络向自治演进的核心规划工具。它并非是对物理实体现有状态的简单映射,而是聚焦未来时刻的优化目标,融合业务需求、资源约束与网络能力,构建物理实体应达成的理想状态参数集,为网络迭代提供可量化、可执行的路径指引。图 25 数字孪生网络基本概念间的关系(二)数字孪 生网络架构结合数字孪生的技术特点和通信网络的需求,中国移动提出了“三层三域双闭环”数字孪生网络参考架构。“三层”指构成数字孪生网络系统的物理网络层、孪生网络层和网络应用层;“三域”指孪生网络层数据域、模型域和管理域;“双2 0 2 5 A I 网 络 技 术 白 皮 书8 1闭环”是指孪生网络层内基于服务映射模型的“内闭环”仿真和优化,以及基于三层架构的“外闭环”对网络应用的控制、反馈和优化。图 26 数字孪生网络架构(1)三层物理网络层是数字孪生的映射对象,由构成端到端网络的所有物理实体组成,包括基站、交换机、路由器、终端设备、配套设施及环境要素。其核心功能是通过南向接口向孪生网络层传输实时数据,同时接收孪生网络层下发的控制指令,实现与虚拟空间的基础交互。孪生网络层是数字孪生网络的核心,负责构建物理网络的虚拟镜像并实现智能化管理,包含数据共享仓库、服务映射模型和网络孪生体管理三个关键子系统。网络应用层面向用户或业务需求,通过北向接口向孪生网络层输入需求,并通过模型化实例在孪生网络层进行业务的配置。充分验证后,孪生网络层通过南向接口将控制更新下发至物理实体网络。(2)三域2 0 2 5 A I 网 络 技 术 白 皮 书8 2三域是孪生网络层的内部构成,实现数据、模型与管理的协同。数据域对应数据共享仓库子系统,负责采集和存储物理网络的多源异构数据,为各种服务于应用的网络模型提供准确完备的数据。模型域对应服务映射模型子系统,基于数据构建多样化模型,包括基础模型和功能模型,向上层网络应用提供服务,最大化网络业务的敏捷性和可编程性。管理域对应孪生体管理子系统,负责虚拟孪生体的全生命周期管控,确保虚拟孪生体与物理网络的长期一致性。(3)双闭环双闭环是数字孪生网络实现智能化的核心机制,确保虚拟仿真与物理执行的协同优化。内闭环在孪生网络层内部,通过服务映射模型对网络策略(如参数调整、路由优化)进行仿真验证,评估可行性并迭代优化,避免直接作用于物理网络导致的风险。例如,在网络切片优化中,先在虚拟空间仿真不同切片的带宽分配方案,验证其对 SL A 的达成能力。外闭环将内闭环验证后的最优策略通过南向接口下发至物理网络,监测物理网络的执行 效果并反馈至孪生网 络层,进一步修正模 型与策略,形成“仿真-执行-反 馈-优 化”的 循 环。例 如,在 网 络 智 能 容 灾 中,孪 生 网 络 层 生 成 的 倒 换 策略经物理网络执行后,将倒换耗时、业务中断率等数据反馈至虚拟空间,持续优化容灾模型。7.2.2 数 字 孪 生 网 络 的 关 键 技 术(一)全景数 据服务技术全景数据服务技术是数字孪生网络的数据基础,旨在实现物理网络全量数据的精准采集、整合与服务,为模型构建与决策分析提供支撑。其核心包括三个层面:2 0 2 5 A I 网 络 技 术 白 皮 书8 3 多源 异构数据 采集:通 过网络 遥测、传 感器接 入、协议 解析等技 术,采集物理网络的设备参数、运行状态、环境数据及业务数据。异构 数据整合 与存储:针对结 构化、半 结构化、非结构 化数据,采用分布式存储技术构建统一数据仓库,通过抽取、转换、加载流程实现数据清洗、去重与标准化。统一 数据服务 接口:提 供标准 化的数据 查询、调用与共 享接口,支撑上层模型对数据的按需获取,同时保障数据访问的安全性与高效性。(二)网络全 生命周期建模技术建模技术是数字孪生网络的核心引擎,通过抽象物理网络的静态特征与动态行为,构建可复用可组合的模型体系,分为以网络设备基本配置、环境信息、运行状态、链路拓扑等为代表的基础模型和以网络感知、分析、仿真、推理、决策等为代表的功能模型两大类,通过模型编排技术将基础模型与功能模型灵活组合,满足复杂场景需求,同时基于实时数据持续迭代模型参数,确保与物理网络的长期一致性。(三)全域孪 生体管理技术全域孪生体管理技术负责虚拟孪生体的全生命周期管控,确保其与物理网络的动态适配与精准映射,核心包括:数字 线程整合:通过贯 穿网络 规划、建 设、运 维、优化 全流程的 数字线程,整合各阶段数据,实现孪生体的溯源。动态 更新与偏 差修正:基于实 时采集的 物理网 络数据,持续校准 孪生体模型参数,当物理网络发生变化时,自动触发孪生体重构。多粒 度孪生体 管控:支 持从单 网元到端 到端网 络的多粒 度孪生体 创建与管理,通过层级化管控实现资源高效调度。2 0 2 5 A I 网 络 技 术 白 皮 书8 4(四)网络可 视化技术通过可视化与交互技术,实现虚拟孪生体对物理网络的直观呈现与动态操控,核心包括:多维度可视化:基于 2D/3D 建模、G I S、B I M 等技术,呈现网络拓扑、设备状态、流量分布与故障位置。沉浸式交互与仿真:支持用户通过图形界面、V R/A R 等方式与孪生体交互,如拖拽式调整网络参数、模拟故障场景。关联 分析与态 势感知:通过多 维度数据 关联,挖掘隐藏 规律,生 成网络态势评估报告。(五)全向接 口协议技术全向接口协议技术通过标准化接口实现物理网络、孪生网络与应用层的高效交互,确保数据传输与控制指令的可靠性与实时性,包括三类接口:南向接口:连接物理网络与孪生网络层,支持数据采集与控制指令下发,采用 R D M A 等技术降低传输时延。北向接口:连接孪生网络层与应用层,提供模型调用、数据查询等能力,采用基于 Q U I C 的 H T T P/3.0 协议。内部 接口:支 撑孪生网 络层内 数据域、模型域、管理域 的协同,采用高效序列化协议确保数据交互效率。7.2.3 基 于 D T N 实 现 意 图 驱 动 的 网 络数字孪生网络为意图驱动网络的有效部署方面提供了坚实基础,它能够实现网络配置的预先验证以及用户业务意图的实时保障等关键功能。物理网络层作为实体基础,通过实时数据采集将物理世界状态同步至上层。孪生网络层作为智能2 0 2 5 A I 网 络 技 术 白 皮 书8 5中枢,整合共享数据仓库中的多源信息,并依托服务映射模型实现核心功能。网络应用层直接对接用户,接收业务意图输入。图 27 基于 D T N 实现 I D N 的参考框架在具体运作中,数字孪生网络通过两大机制保障意图的可靠落地:(一)意图驱 动的预验证机制用户意图经转译生成网络配置命令后,并非直接下发至物理网络。因为物理网络承载着多业务运行,直接下发配置可能引发地址冲突、路由环路等风险,影响既有业务。此时,孪生网络层的服务映射模型发挥预演作用,在虚拟环境中模拟配置下发后的网络行为,同时检测对其他业务的潜在干扰。验证通过后,配置才会安全下发至物理网络。这样不仅可以确保新配置满足用户业务需求,又不会对现有网络服务产生负面影响,从源头规避试错成本。(二)意图偏 离的自修复机制孪生网络层持续从共享数据仓库获取物理网络的实时状态,服务映射模型不断 校 验 用 户 意 图 的 达 成 情 况。当 监 测 到 网 络 偏 离 意 图,借 助 故 障 诊 断、A I 根 因分析等能力,定位问题源头并生成修复策略。但修复策略直接下发物理网络风险较高,此时需再次依托服务映射模型,对修复策略进行仿真验证:利用仿真验证2 0 2 5 A I 网 络 技 术 白 皮 书8 6模拟策略执行后的网络状态,确认能否有效解决问题且不引发新故障。通过验证的策略,由自动化配置模块下发至物理网络,实现故障自动修复,既摆脱人工确认的低效依赖,又推动 A I 技术安全落地,提升运维效率与网络自治水平。7.3 智能网络大 模型7.3.1 智 能 网 络 大 模 型 的 核 心 应 用大模型凭借强大的学习能力和泛化性能,成为推动网络智能化升级的核心动力之一。它能深度挖掘网络数据中的潜在价值,精准把握网络复杂多变的运行状态,在高效故障诊断与预测、网络资源优化配置等关键领域发挥重要作用,为网络运维、管理及性能优化等提供智能决策支持,进而改善网络服务质量,提高用户体验。(一)网络智 能运维大模型能够学习复杂的模式,并且自动识别异常行为。在运维场景中,日志分析、系统指标分析、本机调用链分析等涉及的数据多为非结构化或时序数据,这类数据的特征挖掘与异常识别非常适合采用深度学习模型。通过将实时采集的网络数据输入到训练完备的大模型中,模型能依据学习到的模式和规律,对当前网络状态进行精准评估与判断。一旦检测到异常数据模式,会立即发出故障预警信号,并初步判定故障类型及可能位置。大模型用于异常检测的基本思路可以概括为以下几种方式:日志异常检测:借助 B E R T 等 N L P 预训练模型学习正常日志的语义与格式模式,进而识别偏离正常模式的异常日志。时间序列预测:利用 T r a ns f o r m e r 等模型对系统指标的变化趋势进行预测,当实际指标与预测结果的偏差超过阈值时,判定为异常。2 0 2 5 A I 网 络 技 术 白 皮 书8 7 无监督学习:通过自编码器(A ut o e nc o de r)、对比学习(C o nt r a s t i v e L e a r ni ng)等方法,在无标注数据的情况下挖掘数据分布规律,从而检测未知异常。与传统单一指标检测方法相比,大模型能够综合多维度数据信息开展故障检测,大幅提升了检测的全面性与准确性。不仅如此,在检测到故障后,大模型还可凭借对网络数据的深度理解与推理能力,深入分析故障相关数据,通过追溯网络事件的时序关联、剖析相关设备的配置信息及运行状态变化,精准定位故障的根本原因,为快速解决故障奠定基础。(二)网络性 能优化大模型凭借其强大的多模态数据分析处理能力和动态推理能力,正在从资源调度、流量管控、拥塞控制等多个维度重塑网络性能优化的边界。传统资源分配依赖固定规则,而大模型支持动态优化配置,能依据实时网络状态自适应调整。凭借动态感知能力,大模型可实现跨域资源全局统筹,在保障核心业务服务质量的同时,灵活调整非关键业务资源占比,避免局部拥塞与闲置。同时,它能随网络负载实时变化持续优化分配策略,将冗余资源导向需求节点,确保网络整体效率最优,使资源供给与业务需求始终动态平衡,从根本上提升资源利用效率与响应速度。在流量管控中,大模型通过对网络流量的实时深度解析与动态趋势预判,构建起智能化的流量调度体系。它能够全面捕捉流量的来源、类型、传输路径及负载特征,结合网络拓扑结构与链路状态,精准识别流量的正常波动与异常增长,形成对全网流量的全局感知。基于这种感知能力,大模型可以根据不同流量的业务优先级与服务质量需求,制定差异化的管控策略。这种动态适配的管控模式,不仅能提升网络带宽的整体利用率,还能确保各类流量在复杂网络环境中始终保持高效、稳定的传输状态,为网络服务质量提供坚实保障。(三)网络安 全防护2 0 2 5 A I 网 络 技 术 白 皮 书8 8在网络安全防护中,大模型依托其多模态数据处理、模式学习及动态决策等特性,可实现对复杂威胁的深度感知与快速处置,构建起从威胁识别到主动防御的智能化体系。大模型可同时处理网络流量、终端日志、威胁情报、用户行为等多源异构数据,通过特征工程优化与深度学习建模,提取正常行为与异常行为的差异化特征。大模型通过持续学习新的攻击样本,能够捕捉威胁的本质特征。对于已知威胁,模型会比对实时数据与知识库中的特征,实现毫秒级识别;对于未知威胁,模型通过无监督学习分析正常行为基线,当出现偏离基线的异常时,会标记为潜在威胁,并通过关联分析判断威胁等级。识别威胁后,大模型会根据威胁类型、影响范围和目标重要性,自动生成差异化防御策略,并联动多个安全设备执行。最后,大模型会实时监测防御措施的执行效果,若防御未达预期,模型会回溯分析漏洞,随后重新学习该变种样本的特征,更新识别模型,并优化防御策略。同时,模型会将每次攻防案例纳入训练数据,不断丰富威胁知识库,使防御能力随攻击手段的进化而同步提升。7.3.2 多 智 能 体(M u l t i-A g e n t)群 智 协 同智 能 体(A g e nt)是 一 种能 够 实 时 感 知 环境、自 主 决 策 并采 取 行 动 以 实 现 特定目标的智能系统,它是将大模型能力充分发挥出来的重要手段,通过不同智能体之间的相互协同可以助力解决通信网络的复杂问题,在高阶自智场景中发挥更大价值。A I A g e nt 由规划(P l a nni ng)、记忆(M e m o r y)、工具(T o o l s)与行动(A c t i o n)四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。2 0 2 5 A I 网 络 技 术 白 皮 书8 9图 28 A I A g e nt 应用的基础技术架构规划模块负责将网络目标拆解为可执行的子任务,并评估策略的可行性与潜在风险;记忆模块通过存储网络历史数据、拓扑关系、故障模式等信息,为决策提供经验支撑;工具模块整合网络感知、数据分析、协议解析等能力,将网络状态转化为智能体可理解的信号;行动模块则通过标准化接口将决策转化为具体操作,并通过反馈机制动态调整。从工作模式来看,智能体可以分为单智能体、多智能体和混合智能体。单智能体只有一个智能体进行感知、学习和行动,与环境独立交互,根据环境反馈优化下一步行动策略以实现预期目标。多智能体是一种特殊的智能体,每个智能体都有自己的感知、决策和行动能力,并与其他智能体进行交互协作和信息共享,共同实现复杂的目标。混合智能体是由智能体和人类共同参与决策过程,强调人机协作的重要性和互补性。多智能体群智协同作为一种先进的技术范式,由多个独立自主的智能体在网络中进行无缝协作,其核心在于通过分布式协作机制实现对复杂网络的动态适配与高效管理,这种协作模式与网络的分布式架构、异构特性深度契合。在功能架构上,多智能体采用分层协同设计,不同智能体被赋予特定领域的专精能力,例如负责实时流量监测的感知智能体、专注资源调度的决策智能体、承担安全防护的防御智能体等,各智能体通过明确的角色定位形成功能互补。2 0 2 5 A I 网 络 技 术 白 皮 书9 0在此基础上,协作模式强调动态任务拆解与目标对齐,当面临全局网络优化、跨域故障处理等复杂任务时,由负责统筹的协调智能体将任务分解为子目标,依据各智能体的能力边界与实时负载进行分配,同时通过持续的状态同步确保子目标与全局目标的一致性,避免局部优化对整体网络性能的干扰。此外,协作模式还包含自适应的交互机制,智能体之间通过标准化的通信协议交换实时数据与决策意图,既可以是集中式的信息汇聚,也支持分布式点对点交互。图 29 多智能体群智协同7.3.3 A g e n t i c S O A R 智 能 化 网 络 安 全 编 排 架 构智能化安全编排和自动化响应(A g e nt i c SO A R,A g e nt i c Se c ur i t y O r c he s t r a t i o n、A ut o m a t i o n a nd R e s po ns e)是以 A I A g e nt 为核心驱动,将 L L M 的动态推理能力 与SO A R 的自动化执行能力深度融合的新型安全运营架构。其核心目标是打破传统SO A R 静态依赖的局限,实现从流程自动化到目标自主化的范式升级,解决安全运营中告警疲劳、响应滞后、专家依赖等痛点。A g e nt i c SO A R 的运作模式与传统 SO A R 存在明显差异。传统 SO A R 遵循的是一 条 从 手 动 设 计 到 静 态 响 应 的 线 性 路 径,而 A g e nt i c SO A R 则 是 以 目 标 意 图 为 起点,由 L L M A g e nt 进行动态循环的推理、规划、执行过程。2 0 2 5 A I 网 络 技 术 白 皮 书9 1图 30 传统 SO A R 与 A g e nt i c SO A R 工作流对比目 标意 图 设定(G o a l I nt e nt):A g e nt i c SO A R 工 作流 程 始于 明确 目 标意 图,与传统 SO A R 依赖人工手动设计模式不同,A g e nt i c SO A R 中的目标意图无需预先设定详细的操作步骤,它更侧重于明确最终想要达成的结果,为后续流程提供方向指引。L L M A g e nt 推理 与规划(R e a s o ni ng&P l a nni ng):明确目 标意 图后,系统会调用 L L M A g e nt 进行推理与规划。L L M A g e nt 基于大语言模型强大的自然语言理解和生成能力,对目标意图进行深入解析。它会分析当前任务的特点、相关的历史数据以及可能存在的约束条件等信息,进而制定出一套详细的应对策略,包括需要采取的具体操作、操作的先后顺序以及可能的风险应对措施等。动态工具选择(D y na m i c T o o l Se l e c t i o n-M C P Se r v e r):完成推理与规划后,L L M A g e nt 的决策结果会被传递到动态工具选择环节。这里的 M C P Se r v e r(多组件平台服务器)类似于一个工具资源池,存储着各类不同功能的工具。L L M A g e n t根 据 制 定 的 应 对 策 略,从 M C P Se r v e r 中 动 态 选 择 最 适 合 当 前 任 务 需 求 的 工 具。与传统 SO A R 中固定的工具集成方式不同,A g e nt i c SO A R 的动态工具选择能够根据实时任务需求灵活调配资源,提高了系统应对复杂多变场景的能力。2 0 2 5 A I 网 络 技 术 白 皮 书9 2自适应集成与行动(A da pt i v e I nt e g r a t i o n&A c t i o n):在这个阶段,所选择的工具会被自适应地集成到工作流程中,并按照 L L M A g e nt 规划的策略执行相应操作。在操作执行过程中,系统会实时监控执行的效果和状态,并将反馈信息及时传 递给 L L M A g e nt。如果 执行 结 果未 达到 预 期,L L M A g e nt 可 以根 据反 馈 信息 重新进行推理和规划,调整工具选择和操作策略,形成一个闭环的自适应调整机制,确保最终能够实现最初设定的目标意图。7.4 联邦学习7.4.1 联 邦 学 习 的 定 义在网络智能化升级中,数据是核心驱动力。然而,数据的采集、处理和应用过程中往往涉及用户隐私问题,如何在利用多方数据进行智能分析的同时,有效保护数据隐私和安全是一个亟待解决的问题。联邦学习(F L,F e de r a t e d L e a r ni ng)技术能够在不泄露数据隐私的前提下,打破数据孤岛,解决数据传输瓶颈,赋予网络新智慧。在网络场景中,数据天然分布于边缘设备、基站、核心网节点等不同位置,且包含用户行为、设备状态、业务交互等敏感信息,直接集中数据进行模型训练既面临传输成本过高的问题,也存在隐私泄露风险。联邦学习是一种分布式机器学习框架,允许各节点在不共享原始数据的前提下在本地基于自有数据完成模型训练,通过加密传输模型参数或梯度信息进行全局协同优化。其核心思想是“数据不动模型动”,即数据保留在本地,仅通过交互中间结果实现协作学习。既避免了原始数据的暴露,又能让全局模型聚合各节点的局部知识,为网络智能化提供了数据安全基础。2 0 2 5 A I 网 络 技 术 白 皮 书9 3图 31 用户服务器学习流程联邦学习在 跨域分析中的实现 依赖于一个闭环的迭 代流程,即“初始化-本地训练-全局聚合-模型下发”。步骤 1 初始化阶段:中央服务器初始化一个全局模型,并将模型参数分发给各个参与方。步骤 2 本地训练阶段:每个参与方使用本地数据集对收到的全局模型进行训练,生成本地模型更新。在这个过程中,原始数据始终保留在本地,不进行交换,从而保护了数据隐私。步骤 3 全局模型聚合阶段:参与方将本地模型更新(如梯度、模型参数等)加密后上传至中央服务器,加密技术确保了数据在传输过程中的安全性。中央服务器收集所有参与方的模型更新,并进行聚合,生成新的全局模型。聚合过程旨在结合各方模型的优势,提高全局模型的性能。步骤 4 模型下发阶段:更新后的模型下发至各节点进行下一轮训练,重复步骤 2 至步骤 4,直到全局模型达到满意的性能或收敛。通过多轮迭代训练,全局模型不断优化,以适应更广泛的数据分布。2 0 2 5 A I 网 络 技 术 白 皮 书9 47.4.2 联 邦 学 习 的 分 类 与 关 键 技 术根据联邦学习的数据特点,即不同参与方之间的数据重叠程度,联邦学习主要分为横向联邦学习、纵向联邦学习和联邦迁移学习。图 32 联邦学习分类横向联邦学习适用于参与方数据特征重叠较多但样本重叠较少的情况。例如,不同地区的银行拥有相似的业务但不同的客户群体,它们可以通过横向联邦学习联合训练模型,提高模型的泛化能力。纵向联邦学习适用于参与方数据样本重叠较多但特征重叠较少的情况。例如,同一地区的银行和电商拥有相似的客户群体但不同的数据特征,它们可以通过纵向联邦学习联合训练模型,实现特征互补。联邦迁移学习适用于参与方数据样本和特征重叠都很少的情况,它将联邦学习的概念加以推广,可在任何数据分布、任何实体上进行协同建模以学习全局模型。在联邦学习中,安全性与效率的平衡依赖于差分隐私、同态加密、安全多方计算等核心技术的协同支撑。差分隐私通过在局部模型参数或梯度中引入精心设计的噪声,模糊个体数据对全局模型的影响,从而阻止攻击者通过逆向工程从聚合参数中反推原始数据信息。其核心在于控制噪声的强度,既需确保噪声足够掩盖单一个体的数据特征,又要避免过度噪声导致模型精度下降,这种平衡通过隐私预算机制实现,每个参2 0 2 5 A I 网 络 技 术 白 皮 书9 5与节点的参数更新被分配一定的隐私预算,累计消耗不超过阈值,既保障了数据隐私,又为模型收敛提供了基础。同态加密技术则聚焦于参数传输与聚合过程的加密保护,其独特之处在于支持对加密数据直接进行加法、乘法等数学运算,无需解密即可完成模型参数的聚合计算。在联邦学习的整个过程中,原始参数始终处于加密状态,服务器与其他节点均无法窥探个体数据,从根本上杜绝了传输与聚合环节的隐私泄露风险。安 全 多 方 计 算 通 过 密 码 学 协 议 将 模 型 参 数 的 聚 合 过 程 转 化 为 分 布 式 协 同 计算,使多个参与方在不泄露各自私有数据的前提下,共同完成全局参数的计算。其核心逻辑是秘密共享,每个节点将本地参数拆分为多个份额,分别发送给其他参与方,任何单一参与方仅持有部分份额,无法还原完整参数;聚合时,各参与方基于所持份额进行局部计算,再通过协议组合结果,最终得到全局聚合参数,而整个过程中没有任何一方能获取其他节点的原始参数或完整份额。2 0 2 5 A I 网 络 技 术 白 皮 书9 6第 8 章 A I f o r N e t w o r k 典 型 应 用 实 践本章聚焦 A I 技术在网络领域的落地成果,精选部分 A I f o r N e t w o r k 应用案例,深入剖析其技术架构、实施路径与价值创造,为行业提供可借鉴的实践经验。8.1 中国联通 A I 智能体助力 地铁无线网优创新为解决地铁场景人工测试耗时耗力的诸多问题,中国联通提出了一种新的地铁用户识别和定位方法,依靠地铁用户上报 M R 来实现替代人工测试模式,并嵌入网络专家大模型,自动进行地铁问题识别、根因分析、智能决策,并对执行效果进行自动 闭环评估,从而实现 了地铁网络问题的全 程管控。“大模型中枢 小模型 执行”架构,推动地 铁无线网 络优化从 人工经 验驱动升 级为 A I 目标 驱动,实现降本、提质、增效三重突破。该方案通过大数据分析用户连续通过同方向站台或轨道区间的特征,提升地铁用户及起止时间识别准确性;收集地铁指纹数据,结合切换锚点思路将 M R 和信令数据地理化,助力精准定位网络问题。基于全国现网数据,构建无线网优专家多智能体,支持自然语言与图形化双模式操作,减少人工依赖,自动生成解决方 案。借 助 C ha t 交 互 打破 操 作 限 制,实 现 远 程自 动 路 测 和 问题 统 计,提升 效 率与用户体验,同时节省成本。图 33 网络 A I 大模型应用设计图2 0 2 5 A I 网 络 技 术 白 皮 书9 7该方案 有三大创 新:一 是网络 A I 大模 型应用创 新,打 造质差分 析专家 知识库,结合大模型意图识别、智能体任务规划与 R A G 技术分解任务,利用 D e e pSe e k推理提供优化建议;二是构建地铁用户行为精准识别模型,采集 X D R 信令和 M R数据建模,聚类分析特征以识别用户,监控评估网络质量与用户感知;三是基于地铁用户精准定位模型,研究隧道和轻轨定位算法,构建定位指纹库,建立智能定位模型,实现地理化分析。8.2 中国移动九 天大模型助力无线 网络优化智能升级中国移动九天网络大模型充分发挥无线网络运行数据时空关系的复杂性,精准解决无线网络日常运维作业中对专家水平要求高、工单处理时效差、问题分析维度不足、优化效率低等痛点。九天网络大模型以其卓越的内生能力,可嵌入到无线网日常优化中,提供问题诊断、分析决策、方案执行、效果预估的能力,实现对传统无线网优化流程的智能化重塑,打造无线问题端到端的自闭环优化。图 34 九天网络大模型助力无线网络优化升级依托九天 网络大模型卓越的内生能力优势,结合无线网络结构化数据为主的特点,A I 无线网络 自优化应用可嵌入 到无线网运维一线 生产作业中,提供 四大核心功能:2 0 2 5 A I 网 络 技 术 白 皮 书9 8 智能 感知:相 较于基于 无线接 通率等传 统核心 指标制定 的劣化规 则,大模型能结合更多维度的网络日志准确分辨网络波动和网络异常,计划实现更贴合用户真实感知的无线工单挖掘;智能 诊断:大 模型面向 全场景 无线性能 工单快 速确定问 题根因,无需人工对疑点逐一排查;智能 决策:大 模型根据 派单信 息拉取多 网元性 能数据,一步生成 优化方案,可支持参数类、硬件资源类的优化方案输出;智能 预测:大 模型结合 小区历 史数据学 习情况 对方案执 行后的效 果进行下发前评估,针对达不到预期效果的方案终止实施,减少对网络的影响。8.3 中国铁塔网 络智能化运维与优 化平台为解决用户在网络运维与优化方面的需求与痛点,中国铁塔南京科技创新中心深 入总结 当前运 维工作 需求,构建了 基于 SD N/N F V、A I 大模 型的网 络智能 化运维与优化平台。平台采用分层架构设计,涵盖数据采集、处理、分析、决策及交互五大层级。图 35 平台实现运维智能化升级平台具备三大核心优势:2 0 2 5 A I 网 络 技 术 白 皮 书9 9 全 域 设 备 统 一 纳 管:通 过 多 协 议 纳 管 引 擎 实 现 华 为/H 3C 等 200 型 号 设备 的 统 一 接 入。通 过 C M D B 构 建 多 层 拓 扑 与 G I S 视 图,形 成 全 息 设 备 画 像,实现从基础设施到业务系统的全生命周期数字化管理。多维 度实时监 控:通过 基础设 施与业务 级双维 度实时监 控体系,实现全网状态精准感知。在基础设施层,采用容器化探针对服务器、基站及网络设备的全量指标进行秒级采样;在业务层,通过 SR v 6 路径探针实现核心网业务流的毫秒级追踪,动态监测时延、丢包率等关键指标。智能告警与自愈:告警闭环管理系统通过 L ST M 模型实现告警多维收敛,并 采 用 三 级 分 级 推 送 机 制(严 重/重 要/提 示)联 动 短 信/邮 件/企 微 等 渠 道;同 时自动关联知识库生成修复工单,结合 100 预置运维剧本实现 m s 级自动化响应,并通过虚拟机热迁移等技术确保设备自愈。核心功能涵盖四方面:一是监控与高效利用,包括网络资源灵活调度、基站需求预测及边缘节点资源共享;二是网络性能监测与优化,涉及实时指标监控、智能 路由调整 及流量管 理;三是 A I 驱动 的智能监 测与分析,实现异 常检测、预测性维护及智能决策支持;四是一体化监测与管理,提供监控总览、全域资源监控、网络智能编排及告警管理等功能。8.4 华为星河 A I 网络解决方 案华为星 河 A I 网络通 过全系设备 的 A I 加持与 赋能,与 N e t M a s t e r 网络智 能体深度协同,实现了更精准的业务感知、更实时的业务闭环,从根本上重塑网络的体验、安全和运维。华为星河 A I 网络覆盖四大领域:星河 A I 数据中心网络:通算场景打造高韧性数据中心网络,智算场景构建高算效数据中心网络。2 0 2 5 A I 网 络 技 术 白 皮 书1 0 0 星河 A I 广域网:通过全业务融合、确定性体验保障和最佳运维体验,聚焦融合、体验、智能,打造高运力融合广域网,构筑智能融合 I P 网络底座。星河 A I 园区网络:通过无线体验升级、应用体验升级、运维体验升级和安全体验升级,牵引 A I 使能以体验为中心建网,跃升企业数智生产力。星河 A I 网络 安全:通过 A I 赋能 网络安 全防护 能力,打 造智检 测、智 联动、智融合的 SA SE 解决方案,构筑企业网络安全防御防线。图 36 华为星河 A I 网络解决方案其中,华为星河 A I 网络智能体 N e t M a s t e r 集成了华为数据通信领域上千亿语料,以及 1 万多名网络专家的经验,具备强大的语义理解能力,是通信网络领域的 重 要 突 破。其 支 持 运 维 数 据 问 答、交 互 式 业 务 分 析 与 辅 助 决 策,通 过 独 家 A I网络思维链,实现典型场景下 80%无线故障自诊断、自动生成处置建议并自动执行,从而推动网络迈向智能化新时代。i M a s t e r N C E 网 络 数 字 地 图 以 类 似 交 通 导 航 地 图 的 方 式,将 网 络 空 间 和 物 理空间进行深度融合,基于数字孪生理念构建企业数字化智能大脑,实现云、网、端、应用及用户的统一智能管理。实现从网络到应用的全息可视,并提供了智能路径导航与智能优化等能力,显著提升网络运营效率。2 0 2 5 A I 网 络 技 术 白 皮 书1 0 18.5 中兴通讯 A I R N e t 自智网络高 阶演进解决方案中兴通讯推出 A I R N e t 自智网络高阶演进解决方案,从跨域协同、单域自治、内生智能三个层次出发,提供分层、分域、分级演进的自智能力,通过独立部署或者云部署,赋能网络数字化运营。图 37 中兴 A I R N e t 技术架构图A I R N e t 自智网络解决方案依托数智引擎和自智服务支撑智能化应用的设计、开发和部署。自智服务负责汇聚各个领域的自智网络业务服务能力,比如质量优化服务、故障处理服务、变更监控服务、性能优化服务等,支撑自智网络应用层使用。数 智 引 擎 主 要 由 数 据 引 擎、A I 大 模 型 引 擎、数 字 孪 生 引 擎 三 大 技 术 引 擎 构成,三者彼此相互协作支撑:数据引擎为 A I 大模型引擎和数字孪生引擎提供所需的数据资源,并确保数据治理的有效进行。2 0 2 5 A I 网 络 技 术 白 皮 书1 0 2 A I 大模型引擎通过大模型训推工具链、大模型库和智能体引擎,在模型训练、复用、智能体开发等多方面发挥着重要作用,构建自智网络的智能中枢。数字 孪生引擎 通过多个 内置子 引擎的协 同作用,实现对 物理实体 的全面映射、分析、优化管理。这种相互赋能的关系使得三大技术引擎紧密协同工作,共同推进技术创新和发 展。简 而 言 之,数 据 引 擎 提 供 核 心 资 源;A I 大 模 型 引 擎 是 网 络 智 能 中 枢,对资源进行智能化处理;数字孪生引擎则将处理后的信息应用于实际场景中,形成一个闭环的、高效的创新生态。8.6 京东云 JoyO p s 智能运维为了保障京东大促活动的正常进行,需要对业务系统各项性能和可用性指标进行全链路实时监控,当业务发生错误或者性能遇到瓶颈等问题时,需要能够迅速发现并定位根因,提升运维排障效率。京东 J o y O ps 智能运维通过接入 A I 大模型能力,提供从移动 A pp、网页 H 5 应用、小程序,到网关、后端服务和中间件的全 链路监控 服务,通 过将专家 语料库 和 A I 大模 型算法融 合生成式 故障诊断 方案,在复杂的业务架构下也能实时掌握全栈性能情况,实现 1 分钟发现,5 分钟定位,10 分钟解决,提升服务稳定性。图 38 京东云 J o y O ps 智能运维示意图2 0 2 5 A I 网 络 技 术 白 皮 书1 0 3J o y O ps 智能运维构建了四大优势能力:A I 自动化运维:J o y O ps 能够覆盖超过 90%的故障场景,并且准确率达到80%以上,大部分常见故障可以自动检测并修复,极大减少了人工干预,提升运维效率。故障自动预判:通过因果推理增强,J o y O ps 可以预测并预防潜在的故障,故障响应时间显著缩短,提高业务的稳定性和连续性。运维知识库沉淀:通过持续 学习私域知识和和公开运维知识,J o y O ps 不断优化自身,并将多模态运维数据整合,实现了跨部门和系统的数据一致性,使得运维人员员可以快速掌握和应用最佳实践。全场 景故障解 决:提供 无阈值 监控、日 志分析、根因分 析、智能 巡检、运维运营 A I 问答、慢 SQ L 诊断与优化、硬件故障预测等运维场景能力。目 前,J o y O ps 智 能 运 维 已 大 规 模 应 用 于 京 东 内 部 场 景,支 持 618、11.11 等高 并 发 和 复 杂 业 务 场 景,Q P S 达 千 万 级 流 量 时,可 用 率 仍 可 高 达 99.99%,为 业务应用稳定运行提供保障。2 0 2 5 A I 网 络 技 术 白 皮 书1 0 4第 9 章 A I f o r N e t w o r k 的 挑 战 与 未 来 趋 势本 章 旨 在 前 瞻 性 地 探 讨 A I f o r N e t w o r k 技 术 在 演 进 过 程 中 所 面 临 的 挑 战,并深入分析其未来的发展趋势,为网络产业的持续创新与升级提供战略性思考与展望。9.1 未来发展趋 势A I f o r N e t w o r k 的未来发展趋势将围绕智能化、自主化、服务化和生态化展开,具体表现为大模型在网络领域的深度应用、自主进化的网络智能体系、网络即服务(N a a S,N e t w o r k a s a Se r v i c e)模 式 的 普 及 以 及 生 态 系 统 开 放 与 协 同 创 新。这些趋势将推动网络向更高效和更智能的方向演进,为全球数字化转型提供坚实支撑。(一)大模型 在网络领域的深度应用随 着 L L M 和 多模 态 大模 型 技术 的 突破 性进 展,其 在 网络 领 域的 应 用将 从 辅助性工具向决策引擎演进。在网络运维方面,大模型将实现更高效的故障诊断与预测。通过对实时采集的网络数据进行深度分析,大模型能够精准识别异常模式,提前预警潜在故障,并快速定位故障根源,甚至提供详细的修复建议。此外,大模型在网络资源优化配置方面也展现出巨大潜力,它们能够评估不同配置组合对网络延迟、带宽利用率、可靠性等性能指标的影响,并通过模拟和优化算法找到最佳的网络配置方案,从而减少人工干预,提高网络配置的灵活性和适应性。随着多模态大模型的发展,未来网络大模型将能够融合文本、图像、语音等多种数据,实现更全面的网络状态感知和更智能的决策。(二)自主进 化的网络智能体系未来的网络将不再是静态的、需要人工频繁干预的系统,而是具备自主进化能力的智能体系,这意味着网络智能体系将具备自我学习、自我适应、自我修复2 0 2 5 A I 网 络 技 术 白 皮 书1 0 5和自我优化的能力,无需人工干预即可根据环境变化和业务需求进行持续演进。这种自主进化将体现在多个层面:在感知环节,网络智能体能够主动探索和发现新 的 数 据 源,提 升 对 网 络 状 态 的 全 面 感 知 能 力;在 分 析 和 决 策 环 节,A I 大 模 型能够根据新的数据模式和业务目标,自动调整和优化其算法,提升预测和决策的准确性;在执行环节,网络将具备高度自治的操作执行能力,在接收到决策指令后,能够自动触发修复流程、资源调度或配置更新,实现零接触式快速恢复的业务体验。(三)网络即 服务模式普及网络即服务是一种将网络能力作为服务通过云端交付的模式,用户无需拥有、构 建 或 维 护 自 己 的 网 络 基 础 设 施,而 是 按 需 订 阅 和 使 用 网 络 功 能。A I 的 深 度 融合将加速 N a a S 模式的普及,并使其服务能力 更加智能化、弹性化 和个性化,能够根据用户的业务需求和应用场景,动态调整网络资源和策略,成为未来网络服务 交 付 的 主流 范 式。N a a S 的 普 及 将 推动 网 络 从“拥 有”向“使 用”转 变,使 得网络能力像水电一样,成为按需取用的基础设施,从而加速各行各业的数字化转型。(四)生态系 统开放与协同创新生态系统开放与协同创新将成为网络智能化升级的重要推动力。未来的趋势将是打破传统网络领域的封闭性,促进跨行业、跨领域的深度合作与创新。这包括提供标准化的接口和开发工具,吸引更多的第三方开发者、服务提供商和企业参与到网络能力的创新中来,共同构建丰富的应用生态。加速产学研深度融合,鼓 励 科 研 机 构、高 校与 产 业 界 紧 密 合 作,共 同 攻 克 A I f o r N e t w o r k 领 域 的 关 键 技术难题,加速科研成果向实际应用的转化。9.2 战略建议与 展望2 0 2 5 A I 网 络 技 术 白 皮 书1 0 6面 对 A I f o r N e t w o r k 广 阔 的 发 展 前 景 和 伴 随 而 来 的 挑 战,需 要 从 技 术 研 发 和产业发展等多个层面进行战略性布局和协同推进,以确保其健康、可持续发展。(一)对技术 研发的建议(1)深化基础理论研究:加强对网络智能体的自主学习、多模态数据融合、因果推理、可解释 A I 以及分布式 A I 协同等基础理论的研究。这些核心理论的系统性突破与扎实推进,将构建起网络智能化的“理论护城河”,为技术创新提供源头活水。(2)推 动核心技 术攻关:聚焦于数 字孪生网 络建模的 精度与 实时性、零接触故障自愈的准确性与效率、以及意图驱动网络的闭环控制与验证等关键技术。鼓励跨学科、跨领域的交叉研究,促进不同领域技术理念与方法的融合碰撞,加速关键技术突破与成果转化。(3)构 建开放创 新平台:建立开放 的创新平 台和开源 社区,提供丰富 的网络数据集、标准化的 A P I 接口和易用的开发工具,吸引全球范围内的科研机构、高校和企业共同参与技术创新。通过开源等创新模式,加速技术迭代和应用孵化,形成良性循环的创新生态。(二)对产业 发展的建议(1)加 速应用场 景落地:鼓励网络 运营商、设备商和 垂直行 业企业紧 密合作,推 广 A I f o r N e t w o r k 在 实 际 网 络 运 维、服务 保 障、安 全 防 护 等 领 域 的 典 型 应用场景。通过试点示范项目,验证技术成熟度,积累成功经验,形成可复制、可推广的解决方案。(2)培育专业人才队伍:加大对 A I 网络复合型人才的培养力度,包括既懂网络 又懂 A I 的工 程师、架 构师和研 究人员。通过校 企合作、产教融合 等方式,建立多层次、多类型的培训体系,为产业发展提供坚实的人才支撑。2 0 2 5 A I 网 络 技 术 白 皮 书1 0 7(3)构 建产业生 态联盟:推动产业 链上下游 企业、科 研机构、行业组 织等共 同 组 建 A I f o r N e t w o r k 产 业 联 盟,协 同 制 定技 术 标 准、共 享 最 佳 实 践、联 合 开展市场推广。通过构建开放、合作、共赢的产业生态,共同应对挑战,拓展市场空间。2 0 2 5 A I 网 络 技 术 白 皮 书1 0 8第 三 部 分 未 来 展 望第 1 0 章 A I 网 络 发 展 十 大 趋 势A I 网 络 技 术 正 迎 来 从 技 术 协 同 到 生 态 共 建 的 关 键 发 展 阶 段。N e t w o r k f o r A I与 A I f o r N e t w o r k 两 大 方 向 深 度 融 合,在 技 术 层 面 形 成 闭 环 支 撑,在 应 用 层 面 实现创新突破,在产业生态层面助力全局协同,其演进趋势将重塑智能时代的网络形态,为人工智能规模化发展与数字经济升级奠定基础。A I 网 络 作 为 支 撑 人 工 智 能 规 模 化 落 地 与 数 字 经 济 深 化 发 展 的 新 型 基 础 设 施核心支柱,正在从“支撑 A I 需求”向“定义 A I 未来”跨越。立足当下技术发展与 场 景 变 革,A I 网 络 技 术 将 呈 现 以 下 十 大 趋 势,共 同 塑 造 智 能 时 代 的 网 络 新 形态。(一)从通用互联到 智算中心网络范式A I 大 模 型 训 练 与 超 大 规 模 推 理 对 网 络 提 出 极 致 性 能 需 求,推 动 网 络 从 传 统数据中心的“通用连接架构”向“智算中心专用网络范式”升级。通过物理拓扑、传输协议与通信库的协同设计,实现端到端性能优化,构建超高吞吐、超低时延、线 性 扩 展 的“神 经 网 络 骨 架”,支 撑 千 卡 至 万 卡 级 智 算 集 群 的 高 效 协 同,成 为A I 算力释放的核心基座。(二)从独立层级到 超融合无中心架构传统 云边端层 级化架 构难以适 配分布 式 A I 的实 时协同需 求,将 演进为超 融合 无 中 心 架 构。基 于 M e s h/T o r us 多 维 互 联 与 智 能 路 由,打 破 计 算、存 储、网 络资源 的层级壁 垒,实现 全域资源 的按需 调度与任 意节点高 效通信,为边缘 A I 协同、分布式训练提供韧性更强的底层支撑。2 0 2 5 A I 网 络 技 术 白 皮 书1 0 9(三)从尽力而为到 确定性智能协议栈传统 T C P/I P 的“尽力而为”特性与工业控制、自动驾驶等 A I 场景的确定性需 求 存 在 根 本 矛 盾,驱 动 协 议 栈 向“A I 感 知 的 确 定 性 智 能 体 系”演 进。融 合T SN/D e t N e t 时间敏感技术、意图感知能力,在网络层、传输层构建可预期、可测量、可保障的行为范式,为关键 A I 业务提供实时 SL A 保障。(四)从云为核心到 泛在云边端智能协同A I 应 用 正 从 云 端 集 中 式 部 署 向 物 理 世 界 末 梢 渗 透,推 动 网 络 向“云 边 端 智能协同架构”转型。依托 5G/6G、卫星互联网与 L P W A N 泛在连接,实现智能任务在云、边、端之间的动态分解、模型迁移与推理结果融合,在保障数据隐私与实时性的同时,最大化分布式算力价值,赋能智能制造、智慧城市等场景的深度智能化。(五)从被动配置到 意图驱动智能调度静态 网络配置 无法适 配 A I 负载 的动态特 性,将 被“意图 驱动智能 调度”取代。基 于 强 化 学 习 与 全 局 感 知,网 络 可 实 时 解 析 业 务 SL A 需 求 与 算 力、带 宽、拓扑等资源状态,实现毫秒级资源编排、流量调度与路径优化,完成从“人适配网”到“网适配 A I”的范式转变,支撑 A I 工作流的弹性伸缩。(六)从数据集中到 隐私优先联邦协同范式数据 隐私法规 与数据 孤岛问题 倒逼 A I 训练 推理模式 革新,推动网络 支撑隐私优先的联邦协同范式。通过加密参数传输、跨域安全隔离等技术,实现客户端、边缘、多云等分布式节点的模型协同训练推理,在不泄露原始数据的前提下打破数据壁垒,成为医疗、金融等敏感领域 A I 落地的核心使能技术。(七)从功能附加到 原生智能网络内核2 0 2 5 A I 网 络 技 术 白 皮 书1 1 0网络 智能化将 从外挂 式分析引 擎向原 生智能内 核演进。轻量化 A I 模型 与推理引擎将深度嵌入交换机、网卡等设备的数据面,实现流量特征实时感知、异常行为本地决策、策略自主执行,使网络具备分布式自优化能力,为实现自驱动网络奠定基础,大幅提升自动化与故障响应效率。(八)从千网一面到 知识内化行业专网通用 网络服务 难以满 足垂直行 业的差 异化 A I 需求,将演进 为“知识 内化的行业专网”。网络深度融合工业控制逻辑、医疗隐私规范、车联网移动性特征等垂直行业知识,定制化网络架构、协议与管理策略。例如,工业专网通过确定性传输保障 A I 控制指令实时响应,医疗专网以强化隐私保护支撑 A I 安全应用于诊疗,车 联 网 专 网 凭 超 低 时 延 赋 能 自 动 驾 驶 A I 毫 秒 级 决 策,其 定 制 化 能 力 让 A I在各领域价值最大化。(九)从传统互联网 到智能体互联网传统互联网以人类为通信主体,实现全球信息互联。随着通用人工智能技术的突破性进展,具备自主决策、环境感知与交互能力的智能体正成为网络新主体,推动 互联 网向 智能体 互联 网(I o A,I nt e r ne t o f A g e nt s)跃迁。通 信维 度 将从 人与人互联扩展至智能体与智能体互联以及人与智能体互联,这不仅大幅拓宽网络的内涵与边界,更将引发产品服务、产业生态乃至社会形态的深刻变革,开启“万物皆智能体”的新纪元。(十)从算网分离到 算网电融合共生A I 算力的指数级增长与双碳目标共同推动算网电融合共生。网络作为枢纽,将协同算力布局与电力供应(尤其是绿电),通过全局能效优化算法动态调度任务至绿电富集区,同时推动自身向光电混合、液冷背板等高能效方向演进,支撑“东数西算”等国家级工程落地,实现 A I 算力的绿色可持续发展。2 0 2 5 A I 网 络 技 术 白 皮 书1 1 1参 考 文 献 1 I D C,2025 年中国人工智能计算力发展评估报告 2 未来网络白皮书,智算网络技术与产业白皮书 3 百度智能云,智算中心网络架构白皮书 4 中国移动通信研究院,全向智感互联 O I SA 技术白皮书 5 中国移动通信研究院,全调度以太网技术架构白皮书 6 I M T-2030(6G)推进组,6G 典型场景和关键能力白皮书 7 王 光 全,满 祥 锟,徐 博 华,等.确 定 性 光 传 输 支 撑 广 域 长 距 算 力 互 联 J.邮电设计技术,2024(2):7-13.8 华为,确定性 I P 网络介绍 9 中兴,超节点技术:N V L 72 和 E T H-X 10 U l t r a A c c e l e r a t o r L i nk C o ns o r t i um,I nc.(U A L i nk).(2025).U A L i nk_200 R e v 1.0Spe c i f i c a t i o n 11 U l t r a E t he r ne t C o ns o r t i um.(2025).U l t r a E t he r ne t s pe c i f i c a t i o n:v 1.0.12 B r o a dc o m C o r po r a t i o n.(2025).Sc a l e U p E t he r ne t F r a m e w o r k Spe c i f i c a t i o n(Sc a l e-E t he r ne t-R M 102).13 Z uo P,L i n H,D e ng J,e t a l.Se r v i ng L a r g e L a ng ua g e M o de l s o n H ua w e iC l o udM a t r i x 384 J/O L.2025-06-15.ht t ps:/do i.o r g/10.48550/a r X i v.2506.12708.14 H ua ng Y,H ua ng T,Z ha ng X,e t a l.C SQ F-ba s e d T i m e-Se ns i t i v e F l o wSc he dul i ng i n L o ng-di s t a nc e I ndus t r i a l I o T N e t w o r ks J/O L.2024-09-15.ht t ps:/do i.o r g/10.48550/a r X i v.2409.09585.2 0 2 5 A I 网 络 技 术 白 皮 书1 1 2 15 Q i a n K,X i Y,C a o J,e t a l.A l i ba ba H P N:A D a t a C e nt e r N e t w o r k f o r L a r g eL a ng ua g e M o de l T r a i ni ng C/P r o c e e di ng s o f t he A C M SI G C O M M 2024 C o nf e r e nc e.Sy dne y,N SW,A us t r a l i a:A C M,2024:1-16.D O I:10.1145/3651890.3672265.16 T M F o r um,自智网络产业白皮书 6.0 17 亚信科技,A I A g e nt 赋能自智网络技术探析与实践 18 未来移动通信论坛,10.0I 意图驱动自智网络 19 宋 延 博,高 先 明,杨 春 刚,等.意 图 驱 动 的 韧 性 网 络 安 全 研 究 J.系 统 工 程与电子技术,2024,46(9):3211-3220 20 李福 亮,范广 宇,王兴 伟,等.基于 意图 的网 络(I B N)研究 综述 J.软件 学报,2020.D O I:10.13328/j.c nki.j o s.006088.21 P a ng,L.,Y a ng,C.,C he n,D.,So ng,Y.,&G ui z a ni,M.(2020).A s ur v e y o ni nt e nt-dr i v e n ne t w o r ks.I E E E A c c e s s,8,22862-22873.do i:10.1109/A C C E SS.2020.2969208 22 孙滔,周铖,段晓东,等.数字孪生网络(D T N):概念,架构及关键技术 J.自动化学报,2021,47(3):14.D O I:10.16383/j.a a s.c 210097.23 中国移动研究院,基于数字孪生网络的 6G 无线网络自治白皮书 24 中兴,2025 中兴通讯自智网络白皮书 25 中金,A I 十年展望:A I A g e nt 元年已至,应用拐点或将到来 26 段晓东,孙滔,陆璐,等.智能体互联网:概念、架构及关键技术 J/O L 电信科学.ht t ps:/l i nk.c nki.ne t/ur l i d/11.2103.T N.20250715.1430.002 27 陈 天 骄,刘 江,黄 韬.人 工 智 能 在 网 络 编 排 系 统 中 的 应 用 J.电 信 科 学,2019(5).D O I:10.11959/j.i s s n.1000 0801.2019095.2 0 2 5 A I 网 络 技 术 白 皮 书1 1 3 28 潘彤,余文艳.智能体互 联网:未来网络 的新图景 J.中国电信 业,2025(4):30-3 4.2 0 2 5 A I 网 络 技 术 白 皮 书1 1 4缩 略 语中文全称 英文全称 英文缩写人工智能 A r t i f i c i a l I nt e l l i g e nc e A I大语言模型 L a r g e L a ng ua g e M o de l T e c hno l o g y L L M确定性网络 D e t e r m i ni s t i c N e t w o r k D e t N e t意图驱动网络 I nt e nt-D r i v e n N e t w o r k I D N数字孪生网络 D i g i t a l T w i n N e t w o r k D T N深度学习 D e e p L e a r ni ng D L分布式训练网络 D i s t r i but e d T r a i ni ng N e t w o r k D T N软件定义网络 So f t w a r e D e f i ne d N e t w o r ki ng SD N网络功能虚拟化 N e t w o r k F unc t i o ns V i r t ua l i z a t i o n N F V计算机视觉 C o m put e r V i s i o n C V自然语言处理 N a t ur a l L a ng ua g e P r o c e s s i ng N L P图形处理器 G r a phi c s P r o c e s s i ng U ni t G P U传输控制协议 T r a ns m i s s i o n C o nt r o l P r o t o c o l T C P网际协议 I nt e r ne t P r o t o c o l I P远程直接内存访问 R e m o t e D i r e c t M e m o r y A c c e s s R D M A神经网络架构 T r a ns f o r m e r T F机器学习 M a c hi ne L e a r ni ng M L超以太网联盟 U l t r a E t he r ne t A l l i a nc e U E C可靠无序 R e l i a bl e U no r de r e d D e l i v e r y R U D可靠有序 R e l i a bl e O r de r e d D e l i v e r y R O D可靠无序幂等R e l i a bl e U no r de r e d D e l i v e r y F o rI de m po t e ntR U D I2 0 2 5 A I 网 络 技 术 白 皮 书1 1 5中文全称 英文全称 英文缩写不可靠无序 U nr e l i a bl e U no r de r e d D e l i v e r y U U D互联网工程工作小组 I nt e r ne t E ng i ne e r i ng T a s k F o r c e I E T F确定性 I P 网络 D e t e r m i ni s t i c I P D I P指定周期排队转发 C y c l e Spe c i f i e d Q ue ui ng a nd F o r w a r di ng C SQ F循环排队转发 C y c l i c Q ue ui ng a nd F o r w a r di ng C Q F时间敏感网络 T i m e-Se ns i t i v e N e t w o r ki ng T SN光传送网络 O pt i c a l T r a ns po r t N e t w o r k O T N光交叉连接 O pt i c a l C r o s s-C o nne c t O X C高带宽域 H i g h B a ndw i dt h D o m a i n H B D时空图神经网络 Spa t i o-T e m po r a l G r a ph N e ur a l N e t w o r k ST G N N深度神经网络 D e e p N e ur a l N e t w o r ks D N N安全编排和自动化响应Se c ur i t y O r c he s t r a t i o n,A ut o m a t i o n a ndR e s po ns eSO A R联邦学习 F e de r a t e d L e a r ni ng F L网络即服务 N e t w o r k a s a Se r v i c e N a a S智能体互联网 I nt e r ne t o f A g e nt s I o A

    发布时间2025-08-18 122页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 【开源证券】传媒行业点评报告:关注端游复苏趋势,继续布局游戏/音乐/潮玩/AI应用-250818(17页).pdf

    传媒传媒 请务必参阅正文后面的信息披露和法律声明 1/17 传媒传媒 2025 年 08 月 18 日 投资评级:投资评级:看好看好(维持维持)行业走势图行业走势图 数据来源:聚源 GPT-5 或加速.

    发布时间2025-08-18 17页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 【国盛证券】传媒行业周报:腾讯混元开源游戏AI生成新工具,昆仑万维推出Matrix~3D-250817(10页).pdf

    证券研究报告|行业周报 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 gszqdatemark 传媒传媒 腾讯混元开源游戏腾讯混元开源游戏 AI 生成新工具,昆仑万维推出生成新工具,昆仑万维推出 .

    发布时间2025-08-17 10页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
5048条  共253
前往
客服
商务合作
小程序
服务号
折叠