《新华三:2025智能无损网络技术白皮书(25页).pdf》由会员分享,可在线阅读,更多相关《新华三:2025智能无损网络技术白皮书(25页).pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、智能无损网络技术白皮书 Copyright 2025 新华三技术有限公司 版权所有,保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。i 目 录 1 概述 1 1.1 简介 1 1.2 产生背景 1 1.2.1 RDMA 的应用需求 1 1.2.2 数据中心硬件发展的需求 1 1.3 技术架构 1 2 流量控制技术 3 2.1 PFC 工作原理 3 2.2 PFC 死锁检
2、测 4 2.2.1 PFC 死锁的产生 4 2.2.2 触发 PFC 死锁检测 5 2.2.3 PFC 死锁判定 5 2.2.4 PFC 死锁恢复 5 2.3 PFC 死锁预防 6 2.3.1 PFC 死锁预防的产生背景 6 2.3.2 PFC 高风险业务流 6 2.3.3 PFC 死锁预防工作原理 7 3 拥塞控制技术 8 3.1 ECN 8 3.1.1 基本概念 8 3.1.2 实现原理 9 3.2 ECN Overlay 11 3.2.1 基本概念 11 3.2.2 实现原理 12 3.3 大小流区分调度 12 3.4 AI ECN 13 3.4.1 背景简介 13 3.4.2 实现原理
3、 14 3.5 IPCC 15 3.5.1 基本概念 15 3.5.2 实现原理 16 ii 4 智能无损存储网络技术(iNOF)19 4.1 iNOF 简介 19 4.2 iNOF 组网 19 4.2.1 iNOF 网络元素 19 4.2.2 iNOF 直连组网 20 4.2.3 iNOF 跨交换机组网 20 4.3 技术优点 22 4.4 H3C iNOF 实现的技术特色 22 5 参考文献 22 1 1 概述概述 1.1 简介 智能无损网络是通过硬件架构、智能无损算法和一系列的网络技术,为人工智能、分布式存储、HPC(High Performance Computing,高性能计算)等应
4、用场景提供的“无丢包、低时延、高吞吐”网络环境,用于加速计算和存储的效率,为数据中心构建统一融合的网络。1.2 产生背景 1.2.1 RDMA 的应用需求 RDMA(Remote Direct Memory Access,远程直接内存访问)技术的内核旁路机制允许应用与网卡之间直接读写数据,使得服务器内的数据传输时延降低。同时 RDMA 利用相关的硬件和网络技术,使服务器网卡之间可以直接读内存,实现了高吞吐量、超低时延和低 CPU 开销的效果。当前分布式存储、HPC 高性能计算、AI 人工智能等场景均采用 RoCEv2(RDMA over Converged Ethernet version 2
5、)作为以太网上的传输协议来降低传输时延和 CPU 负担。但是 RoCEv2 是一种基于无连接的 UDP 协议,缺乏完善的丢包保护机制,对于网络丢包异常敏感。此外,分布式高性能应用采用多对一通信的 Incast 流量模型。在以太网设备中,Incast 流量易引发设备内部队列缓存的瞬时突发拥塞,甚至导致丢包,从而增加时延并降低吞吐量,最终损害分布式应用的性能。所以为了发挥出 RDMA 的真正性能,突破数据中心大规模分布式系统的网络性能瓶颈,势必要为 RDMA搭建一套“无丢包、低时延、高吞吐”的无损网络环境。1.2.2 数据中心硬件发展的需求 计算、存储、网络是数据中心的三要素,三者需要协同发展。当
6、前业界在计算芯片算力、存储读取速度方面取得了巨大的进展。从 2016 年到 2021 年,近 5 年GPU/AI 芯片算力增长了 90 倍。采用 NVMe(Non Volatile Memory Express,非易失性内存主机控制器接口规范)接口协议的 SDD 存储介质访问性能相对 HDD 机械硬盘提升了 10000 倍,读写存储介质的时延主要取决于网络时延的大小。随着存储介质和计算处理器的演进,网络通信的时延成为阻碍计算和存储效率的进一步提升的短板。因此为数据中心提供一套“无丢包、低时延、高吞吐”的无损网络环境是未来发展的关键需求。1.3 技术架构 智能无损网络一方面通过流量控制技术和拥塞