1、数据中心网络链路质量可观测体系技术报告编号 ODCC-2024-03004数据中心网络链路质量数据中心网络链路质量可观测体系技术可观测体系技术报告报告技术白皮书技术白皮书2024.09 发布开放数据中心标准推进委员会数据中心网络链路质量可观测体系技术报告I版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配
2、合与支持。数据中心网络链路质量可观测体系技术报告II编写组项目经理:项目经理:孙玉勤京东科技信息技术有限公司工作组长:工作组长:何泽坤腾讯科技(深圳)有限公司贡献专家:贡献专家:李力京东科技信息技术有限公司孙玉勤京东科技信息技术有限公司刘松林京东科技信息技术有限公司张潍丰腾讯科技(深圳)有限公司黄宏毅华为技术有限公司张忠刚华为技术有限公司后方帅华为技术有限公司蒋星Cisco Systems,Inc.黄浩Cisco Systems,Inc.李婷婷Cisco Systems,Inc.丁晓艳Intel China Ltd孙金超Intel China Ltd李和松中兴通讯股份有限公司付华楷中兴通讯股份
3、有限公司王俊杰苏州盛科通信股份有限公司杨勇涛苏州盛科通信股份有限公司马国强星云智联科技有限公司王少鹏中国信息通信研究院孙聪中国信息通信研究院数据中心网络链路质量可观测体系技术报告III目录版权声明.I编写组.II一、背景.1(一)网络可观测行业现状.11 网络设备侧.12 业务端侧.2(二)当前技术的局限性.3(三)网络可观测场景需求分析.41 网络链路需要业务流追踪.52 网络链路需要自证清白.53 网络链路需要根因分析.5二、链路质量可观测关键技术.6(一)基于逐跳收集的链路质量可观测技术.61 总体概述.62 IFA.83 P4 INT.154 In-situ OAM.205 Inban
4、d-OAM.236 IFIT.27(二)基于固定填充的链路质量可观测技术.331 Path Tracing.33数据中心网络链路质量可观测体系技术报告IV(三)基于拥塞信息收集的链路质量可观测技术.391 CSIG.39三、链路质量可观测部署方案.43(一)结合端侧的 IFA 部署方案.43(二)基于 P4 INT 的部署方案.46(三)基于 IFIT 的部署方案.48(四)基于 Path Tracing 的部署方案.50(五)基于 CSIG 的部署方案.55四、技术展望.57(一)链路质量可观测在端侧 IPU/DPU 的应用.57(二)链路质量可观测在 AI 网络的应用.581 AI 网络链
5、路监控的挑战.582 借助遥测技术实现探测流量 100%链路覆盖.59(三)结合 AI 网络模型实现链路质量可观测.61(四)链路质量可观测技术规范展望.621 链路质量观测的关键基础指标.622 带内网络遥测技术 INT 的特性能力.63五、参考文献.68数据中心网络链路质量可观测体系技术报告1一、一、背景背景(一)(一)网络可观测行业现状网络可观测行业现状网络可观测性是指对网络状态、性能指标和事件的监控、测量和分析的能力。随着云计算、大数据以及 AI 技术和应用的迅猛发展,数据中心作为支撑各类关键业务运行的基础设施,其规模的快速发展带来了网络规模的显著扩大,网络架构日趋复杂。在这种背景下,
6、网络可观测性变得尤为重要,它不仅关系到网络故障的快速发现、定位、和修复,也关系到网络性能优化,更直接影响到业务的连续性和服务质量。目前,行业主要采用以下两种方法来增强网络的可观测性。1网络设备侧网络设备侧目前网络设备侧的可观测性主要通过以下几种种方式实现。设备探活设备探活设备探活通过周期性地发送探测数据包来检测网络设备的连通性和响应时间,从而确保网络设备处于正常工作状态。指标采集指标采集指标采集指通过网络管理协议收集设备状态、性能指标和配置信息等,如 CPU 和内存使用率、接口的流量和错误包统计、以及设备的健康状况等。这些指标可以通过 SNMP(简单网络管理协议)或者gRPC(Google R