《OCTC:2024数据中心物理基础设施管理要求白皮书(44页).pdf》由会员分享,可在线阅读,更多相关《OCTC:2024数据中心物理基础设施管理要求白皮书(44页).pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、 数据中心物理基础设施管理要求 白皮书 (2024年4月)开放计算标准工作委员会 发 布 OCTC BB012024 OCTC BB012024 I 版权保护文件 版权所有归属于该标准的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形式或任何手段进行复制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用许可可于发布机构获取。T/CESA BB012024 II 目 次 前 言.1 背景、目的及意义.1 2 发展趋势.2 3 术语.4 4 平台架构.5 5 平台管理要求.6 5.1 资产管理.6 5.2 监控管理.11 5.3 配置管理.24 5.4 能耗管理
2、.29 5.5 拓扑管理.30 5.6 统计管理.31 5.7 用户管理.32 5.8 安全防范管理.33 6 平台兼容性.34 6.1 硬件兼容.34 6.2 软件兼容.34 7 平台可靠性.35 7.1 系统稳定性.35 7.2 高可用性.35 7.3 安全性.36 7.4 可伸缩性.36 7.5 容灾备份.36 7.6 监控和故障排除.37 8 平台高性能.37 8.1 并发量.37 8.2 响应时间.37 8.3 吞吐量.38 8.4 性能计数器.38 9 总结.38 参 考 文 献.40 OCTC BB012024 III 前 言 本文件由国网智能电网研究院有限公司提出。本文件由开放
3、计算标准工作委员会归口。本文件起草单位:国网智能电网研究院有限公司、浪潮电子信息产业股份有限公司、中国电子技术标准化研究院、中国质量认证中心、南京大学、北京信息科技大学。本文件主要起草人:刘卫卫、赵保华、赵帅、陈海、刘晓蕾、郭锋、王晓通、马鸿超、邸贺亮、刘畅、李锋、田琳、张鑫、贾伟、王勇旭、李松、张鹏、张玉峰、杨辰、马成欣、吴春鹏、王岳、郑敏、余智、陈凯、许封元、侯守璐。OCTC BB012024 1 数据中心物理基础设施管理要求 1 背景、目的及意义 在数字化转型的关键时期,数据中心作为一种新型基础设施,扮演着重要的角色。数据中心是用于集中存储、管理和处理大量数据的设施,它提供高性能的计算和
4、存储资源,满足数字化转型所需的巨大数据处理需求。数据中心物理基础设施管理是指对数据中心的计算设备、网络设备、存储设备、动力环境、安全设施等基础设施进行全方位的管理,包括资产、监控、配置、能耗、拓扑、安全、用户等。随着数据存储规模和计算量的不断增长,数据中心的规模也在不断扩大,对其物理基础设施的管理变得愈发困难。在数据中心快速发展的背景下,物理基础设施管理软件市场迅速扩大,各大厂商纷纷推出数据中心物理基础设施管理软件。然而,随着数据中心基础设施的多样性和复杂性增加,现有的管理软件面临着一系列挑战。由于数据中心基础设施的多样化,现有的管理软件缺乏标准化、一体化和智能化。这使得不同软件之间难以协同工
5、作,管理数据中心的效率受到了影响。此外,现有的基础设施管理技术在覆盖其他行业客户应用方面存在不足,导致数据中心管理软件无法满足不同行业的特殊需求,限制了其应用范围。这些问题会给数据中心的稳定性、可维护性和可扩展性带来挑战。制订数据中心物理基础设施管理技术要求是解决这一问题的重要举措。制订白皮书是为了解决数据中心物理基础设施管理标准不一致、缺乏一体化和智能化的问题。通过白皮书的制订,可以推动设备管理的一体化和规范化,促进管理平台在架构、功能和智能等方面的标准化,提高各数据中心之间的互操作性和兼容性。这将有助于提高数据中心的管理效率、可靠性和安全性,降低运营成本,推动整个数据中心管理的发展,进而促
6、进数据中心物理基础设施管理产业的健康发展。此外,由于数据中心物理基础设施管理软件的复杂性,有必要出台相关标准进行统一规范,所以后续将基于此白皮书内容出台相关标准,以提升行业标准化水平、促进数据中心基础设施管理软件行业的发展。T/CESA BB012024 2 2 发展趋势 在当今数字化时代,数据中心的角色愈发关键,它们是企业信息管理和服务交付的核心。面对数据中心规模日益庞大、需求日益多样化的挑战,标准化管理、智能化管理以及一体化、平台化等成为了数据中心演进的关键方向。1、标准化管理是数据中心迈向高效、安全与绿色未来的基石、标准化管理是数据中心迈向高效、安全与绿色未来的基石 标准化管理是数据中心
7、迈向高效、安全和绿色未来的基石。随着数据中心规模的增大,标准化管理成为数据中心管理的必然趋势。标准化管理可以帮助实现自动化和集中化管理,提高效率、降低成本,并增强安全性。通过制订统一的标准和最佳实践,数据中心可以更好地配置、监控和维护各个组件,实现自动化流程和集中化管理,从而提高整体运维效率和资源利用率。首先,标准化管理可以促进自动化和集中管理。当数据中心的硬件和软件都遵循统一的标准时,管理员可以更容易地配置、监控和维护数据中心的各个组件。这使得管理员可以更快速地完成任务,提高工作效率,同时降低错误率。通过自动化常规任务,数据中心可以更快地适应变化,提高应变能力。其次,标准化管理可以提高效率。
8、由于数据中心的硬件和软件都遵循统一的标准,所以可以更容易地实现自动化和流程优化。这不仅可以减少人工干预产生的错误,同时也可以提高工作效率,使数据中心更加可靠和高效。此外,标准化管理还可以降低成本。当使用相同或相似的硬件和软件配置时,数据中心可以更大规模地采购,从而获得更好的定价和折扣。这使得采购成本得到更好的控制,同时也降低了维护和运营成本。最后,标准化管理可以增强安全性。标准化有助于确保数据中心的组件都符合安全标准和最佳实践。这使得数据中心更加安全可靠,降低安全漏洞的风险,并使数据中心更容易实施一致的安全策略。标准化在数据中心管理中扮演着关键角色,它不仅有助于提高效率和资源利用,还为数据中心
9、提供了更好的安全性。对于大规模数据中心的统一管理,标准化是实现协调一致性操作的基础,从而使得整个数据中心更加高效和可靠,并且保障数据中心的绿色低碳。2、智能化管理是保持竞争优势的关键、智能化管理是保持竞争优势的关键 智能化管理是保持竞争优势的关键,在数据中心运维中,自动化和智能化是数字化转型升级的必由之路。自动化管理可以减少人为错误、提高效率,并确保任务按照规定的标准和时间进行。通过人工智能、机器学习等先进技术赋能数据中心系统和运维过程,使其更加智能,以实现自动化学习、优化和适应变化,提高运维管理效率。OCTC BB012024 3 传统的手动管理和运维方式已经很难满足快速、高效、可靠的要求。
10、数字化的发展是推动数据中心实现基础设施自动化和智能化管理的基础,因为只有通过数字化,才能够获取大量数据,并为自动化和智能化提供所需的信息和基础。同时,自动化和智能化管理也是数字化的必然结果,因为数字化使得数据中心能够更好地应用先进的技术和算法,从而实现自动化和智能化管理的目标。智能化管理是利用人工智能(AI)和其他先进技术赋予数据中心系统和运维过程更高级的智能能力。通过使用这些技术,数据中心可以更好地满足不断变化的需求。全面的智能化管理是数据中心基础设施领域最终的技术演进方向,因为它具有很多优势。首先,智能化管理可以显著提高运维管理效率。在海量运维数据背景下,AIOps 可以自动分析和识别基础
11、设施产生的异常、故障等问题,使运维管理更加高效、准确和及时。其次,智能化管理可以实现前瞻性的故障预测。利用 AI 的预测能力,可以提前预测服务器等基础设施的异常和故障,从而避免故障对业务造成影响,进一步提高数据中心的可靠性。此外,智能化管理可以实现稳定的可靠保障。当数据中心基础设施出现异常或故障时,AIOps 可以通过自动化分析、诊断和修复,实现实时、快速的问题解决,确保数据中心的稳定性和可靠性。最后,智能化管理可以精细地控制成本。通过 AIOps,可以极大降低人力成本和时间成本,提高 IT 系统的可靠性和稳定性,同时也降低了故障和异常造成的损失。因此,智能化管理可以为数据中心带来更高的效率、
12、可靠性和经济效益。3、一体化、平台化是数据中心持续发展的关键路径、一体化、平台化是数据中心持续发展的关键路径 一体化、平台化与数据中心基础设施融合是数据中心管理的趋势。现代的数据中心物理基础设施管理趋向于集成各种管理工具,并倾向于使用综合性的平台来进行管理。一体化、平台化可以实现数据的集成和关联分析,提供统一的管理界面,节省时间和精力,提高管理效率,同时可以实现更全面的资源管理和协同运维,提高整体数据中心的效能和可靠性。现代数据中心物理基础设施管理正朝着集成各种管理工具并使用综合平台进行管理的方向发展。这种一体化和平台化的管理模式能够实现很多优势。首先,一体化、平台化可以收集来自各种设备和系统
13、的数据,并将其整合在一个中央存储库中,实现数据的集成和关联分析,这使得管理员能够更全面地了解整个基础设施的状态和表现,从而更准确地评估和管理风险。其次,通过集成不同的管理工具,管理员可以在一个统一的管理界面中查看和操作所有相关数据和功能,这可以节省时间和精力,提高管理效率,并减少在不同工具之间切换所需的工作量。此外,一体化、平台化还可以提供全局报告和分析功能,帮助管理员根据自身需求生成全局的报告和可视化数据,这使得管理员能够全面了解基础设施的性能和瓶颈,并采取适当的措施来优化和改进。T/CESA BB012024 4 3 术语(1)独立磁盘冗余阵列(Redundant Array of Ind
14、ependent Disks,RAID):RAID 技术将多个单独的物理硬盘以不同的方式组合成一个逻辑硬盘,从而提高了硬盘的读写性能和数据安全性。(2)sFlow(Sampled Flow):是一种基于报文采样的网络流量监控技术,主要用于网络流量的统计分析。(3)网桥协议数据单元(Bridge Protocol Data Unit,BPDU):是一种桥嵌套协议,在 IEEE 802.1d规范里定义,可以用来消除桥回路。(4)固态硬盘(Solid State Drives,SSD):是由固态电子存储芯片阵列制成的硬盘,由控制单元和存储单元组成,数据读写性能相对于传统硬盘大大提升。(5)逻辑卷(L
15、ogical Volume,LV):是由逻辑磁盘形成的虚拟盘,也可称为磁盘分区。(6)受管磁盘(MDisk):是对主机系统不可见的物理存储器的逻辑单元。它可以是来自内部存储器阵列(RAID)的逻辑单元,也可以是来自外部存储系统卷的逻辑单元。(7)可纠正错误(Correctable Error,CE):硬件会利用一部分资源对该错误进行修复,而当内存 CE 累计过多,无法进行自我修复时,则会产生 UCE,造成系统宕机重启。(8)不可纠正错误(Uncorrectable Error,UCE):当硬件侦测到一个错误,它会通过两种方式报告给 CPU 的。其中一种方式是中断,这种情况如果是 UCE 可能会
16、导致服务器立马宕机。(9)硬盘自我检测分析与报告技术(Self-Monitoring Analysis And Reporting Technology,S.M.A.R.T):对硬盘的温度、内部电路、盘片表面介质材料等进行监测,力求及时分析出硬盘可能发出的问题,并发出警告,从而保护数据不受损失。(10)根因定位(Root Cause Determination):是指通过分析服务器异常的具体表现和相关信息,找出可能导致服务器故障的具体原因。(11)碳排放系数(Carbon Emission Factor):是指每一种能源燃烧或使用过程中单位能源所产生的碳排放数量。(12)电能使用效率(Powe
17、r Usage Effectiveness,PUE):评价数据中心能源效率的指标,是数据中心消耗的所有能源与 IT 负载消耗的能源的比值。PUE=数据中心总能耗/IT 设备能耗,其中数据中心总能耗包括 IT 设备能耗和制冷、配电等系统的能耗,其值大于 1,越接近 1 表明非 IT 设备耗能越少,即能效水平越好。OCTC BB012024 5(13)高可用性(High Available,HA):是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。4 平台架构 数据中心物理基础设施管理平台旨在满足数据中心对于物理基础设施数字化的要求。该平台是在异构设备数据采集、
18、汇总及分析基础上构建的综合管理平台。以高效的数据采集与存储作为支柱,平台整合了资产管理、监控管理、配置管理、能耗管理、拓扑管理、安全防护、统计管理以及用户管理等众多功能,致力于实现数据中心物理基础设施的全方位统一管理,平台架构如图 1 所示。图 1 平台架构图 平台 DFX 设计包括平台可靠性、平台兼容性、平台高性能。平台可靠性确保系统在各种条件下均能稳定运行;平台兼容性保证平台在不同设备和操作系统上的无缝运行;平台高性能突出系统处理高负载、维持快速响应和高效率的能力。管理设备是平台支持的硬件基础,涵盖了计算资源、存储资源、网络资源以及智能机柜等关键设施。它通过兼容多种设备协议,如 Redfi
19、sh、SNMP、RESTful、SMI-S、IPMI 等,实现各类设备与管理平台的高效接入。平台功能则根据多样化的应用场景,提供了多项核心功能服务。这些服务涉及从资产管理到安全防护的全方位覆盖,确保数据中心的运营能在一个统一且协调的平台下,响应不同的管理和维护需求。T/CESA BB012024 6 资产管理资产管理:资产管理是指对各种与数据中心运营相关的实物资产进行有效的跟踪、记录、监管和优化的过程。这些实物资产包括服务器、网络设备、存储设备、电力供应设备、冷却设备、机柜、传感器等。监控管理监控管理:监控管理是指利用硬件设备及技术手段,对计算资源、存储资源、网络资源等关键基础设施的各个部件的
20、状态、性能、日志和告警进行实时监控、数据采集和分析,以实现对基础设施运行状态的全面掌握和管理。配置管理配置管理:自动化配置是指利用硬件设备及技术手段,对计算资源、存储资源以及网络资源的固件、配置、操作系统以及应用情况进行远程管理,涉及固件的升级、BMC、BIOS 配置、操作系统部署以及带内操作系统应用的监控和管理等。能耗管理能耗管理:能耗管理旨在精细化控制和监测数据中心及其设备在运行时的电力消耗,以确保数据中心能够持续、高效地提供计算服务,同时最大限度地降低能源成本和对环境的负担。拓扑管理拓扑管理:拓扑管理是指对网络拓扑结构和位置拓扑结构进行有效管理和控制的过程。统计管理统计管理:统计管理是指
21、对数据中心物理基础设施的资产、监控系统中的告警以及计算资源、存储资源、网络资源等设备性能数据进行统计和分析。用户管理用户管理:用户管理对系统内部的用户权限和身份进行细致化控制。主要目标是确保各类用户能够根据其角色和职责获取适当的权限,从而确保数据中心的安全和高效运行。安全防范管理安全防范管理:安全防范管理通过整合门禁系统和视频监控系统,为数据中心提供了一个全面的安全监控解决方案。5 平台管理要求 5.1 资产管理 资产管理是指对各种与数据中心运营相关的实物资产进行有效的跟踪、记录、监管和优化的过程。这些实物资产包括服务器、网络设备、存储设备、电力供应设备、冷却设备、机柜、传感器等。5.1.1
22、IT 设备管理 数据中心 IT 设备管理是一种对数据中心内所有 IT 设备资产进行跟踪、记录和管理的过程。它旨在确保数据中心 IT 设备资产的完整性、可用性,提供准确的资产信息。OCTC BB012024 7(1)计算资源 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含厂商、型号、产品序列号、主板产品号、主板序列号等;应支持部件信息的批量导入、手动录入和自动发现,部件信息包含处理器、内存、磁盘、逻辑磁盘、电源、风扇、PCIe、RAID 等:处理器包含名称、状态、厂商、型号、主频、核数、线程数、型号、PN 等;内存包括名称、状态、槽位、序列号、厂商、类型、容量、最大频率等;磁盘包括名
23、称、状态、槽位、容量类型、厂商、型号、序列号等;逻辑磁盘包括设备 ID、名称、容量(GB)、状态等;电源包括名称、型号、额定功率(W)、槽位、固件版本号、部件号、模式、状态等;风扇包括名称、转速、转速百分比(%)、槽位、模式、状态等;PCIe 包括设备名称、厂商、槽位、描述、状态等;RAID 包括名称、序列号、固件版本、型号、状态等;应支持多种协议设备的自动发现和管理:IPMI、SNMP、Redfish、HTTP、HTTPS 等;应支持计算资源全生命周期的资产追溯,从采购、入库、出库、上架、下架、退库、报废等每个环节都能够准确记录和追踪计算资源的状态和流转情况;应支持服务器资源管理、资产信息的
24、手动刷新和自动刷新能力,具体包括以下方面:手动刷新:管理员或操作人员可以手动触发资产信息的刷新操作,通过手动刷新,可以及时更新服务器的状态、配置和其他相关信息,确保资产信息的准确性;自动刷新:系统应提供自动刷新机制,定期或根据设定条件自动更新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。(2)存储资源 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含厂商、型号、序列号、投入运行时间、license 信息等;应支持部件信息的批量导入、手动录入和自动发现,例如,磁阵的部件信息包含机框、BBU、控制器、风扇、iSCSI、LUN、电源、RAID、磁盘、FC 等,其中:
25、机框包含 ID、类型、序列号、状态等;T/CESA BB012024 8 BBU 包括名称、状态等;控制器包括名称、状态、容量等;风扇包括名称、状态等;iSCSI 包括名称、ID、索引、速率(Mbps)、IP、MAC、子网掩码、状态等;LUN 包括名称、WWN、LUN ID、块大小(Byte)、块数量、未使用的块数、总容量(GB)、未用容量(GB)、状态等;电源包括名称、状态等;RAID 包括名称、池 ID、总容量(GB)、已用容量(GB)、未用容量(GB)、状态等;磁盘包括 ID、名称、厂商、型号、槽位、微码版本、容量(GB)、状态、块大小(GB)、块数量、类型等;FC 包括端口索引、端口
26、ID、端口速率(Mbps)、端口类型、状态等;分布式存储信息包含存储池、卷、快照等,其中:存储池包含名称、总容量、数据策略、安全策略、节点数量、总容量、已用容量、状态等;卷包括名称、卷容量、QoS 列表、创建时间、所属存储池、状态等;快照包括名称、卷名称列表、脏数据容量(GB)、创建时间、所属存储池等;应支持多种协议的设备自动发现和管理:SNMP、SMIS、HTTP、HTTPS 等;应支持存储资源全生命周期的资产追溯,从采购、入库、出库、上架、下架、退库、报废等每个环节都能够准确记录和追踪存储资源的状态和流转情况;应支持存储资源管理、资产信息的手动刷新和自动刷新能力,具体包括以下方面:手动刷新
27、:管理员或操作人员可以手动触发资产信息的刷新操作,通过手动刷新,可以及时更新存储设备的状态、配置和其他相关信息,确保资产信息的准确性;自动刷新:系统应提供自动刷新机制,定期或根据设定条件自动更新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。(3)网络资源 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含厂商、型号、序列号、投入运行时间、软件版本、设备类型、最大功率(W)、额定功率(W)、吞吐能力(Mbps)、包转发能力(Mpps)等;OCTC BB012024 9 应支持部件信息的批量导入、手动录入和自动发现,网络设备部件信息包含端口、风扇、电源、单板等:其中
28、端口包含名称、描述、速率(Mbps)、类型、VLAN、MAC、对端端口 ID、对端 ChassisID、IPv4、IPv6、端口连接类型、连接设备 MAC、最近接入状态及状态时间等;风扇包括名称、状态等;电源包括名称、型号、状态、模式等;单板包括名称、型号、序列号、槽位、状态等;应支持多种协议的设备自动发现和管理:SNMP、HTTP、HTTPS 等;应支持网络资源全生命周期的资产追溯,从采购、入库、出库、上架、下架、退库、报废等每个环节都能够准确记录和追踪网络资源的状态和流转情况;应支持网络资源管理、资产信息的手动刷新和自动刷新能力,具体包括以下方面:手动刷新:管理员或操作人员可以手动触发资产
29、信息的刷新操作,通过手动刷新,可以及时更新存储设备的状态、配置和其他相关信息,确保资产信息的准确性;自动刷新:系统应提供自动刷新机制,定期或根据设定条件自动更新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。(4)智能机柜 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含智能机柜名称、厂商、型号、产品序列号、主板产品号、主板序列号、所属机房、所属数据中心、机柜高度(U)、额定功耗等;应支持部件信息的批量导入、手动录入和自动发现,智能机柜部件信息包含电源、风扇等:其中电源包括名称、厂商、型号、序列号、固件版本、输入模式、状态等;风扇包括名称、转速、转速百分比(%)
30、、槽位、模式、状态等;应支持多种协议的智能机柜自动发现和管理:IPMI、HTTP、HTTPS 等;应支持智能机柜内计算资源、存储资源、网络资源的纳管及基本信息、部件信息的获取;应支持机柜资源全生命周期的资产追溯,从采购、入库、出库、柜内设备上架、柜内设备移动、柜内设备下架、机柜在机房中的移动、退库、报废等每个环节都能够准确记录和追踪机柜资源的状态和流转情况;应支持智能机柜资源管理、资产信息的手动刷新和自动刷新能力,具体包括以下方面:T/CESA BB012024 10 手动刷新:管理员或操作人员可以手动触发资产信息的刷新操作,通过手动刷新,可以及时更新柜内设备的状态、配置和其他相关信息,确保资
31、产信息的准确性;自动刷新:系统应提供自动刷新机制,定期或根据设定条件自动更新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。5.1.2 空间设施管理 空间设施管理是指对机房、机柜等物理空间资产进行综合性管理和维护的过程。它涵盖了各种方面,包括设备、布局、环境、电力控制等。包括对机房、机柜、服务器、网络设备、存储设备等进行规划、配置、部署和维护。(1)机房 应具备机房空间规划和管理功能,支持对机房机柜位置进行添加、移动、编辑和记录操作;应具备机柜信息记录与维护功能,支持对机柜名称、编号、容量、电力需求等信息进行记录和更新操作;应支持以不同文件方式进行机房批量导入,实现一次性
32、导入多个机房的信息:其中包括机房名称、健康状态、机房编号、所在省市、机房的长宽(单位:米)、承重(单位:千克/平方米)、创建时间、机柜数量、服务器数量、存储数量、网络设备数量、安全设备数量等;应支持以不同文件的方式进行机柜批量导入,实现一次性导入多个机柜的信息:其中包括机柜名称、健康状态、机柜编号、机柜高度、创建时间、服务器数量、存储数量、网络设备数量、安全设备数量等;应具备机房各项指标汇聚与展示功能,如温度、功耗、气流、进风口温度和出风口温度等;应具备机房功耗策略设置功能,支持如动态功耗策略和最低功耗策略等。(2)机柜 应支持机柜内设备布局管理,涵盖计算、存储、网络、动力环境传感器等资源的添
33、加、移动和编辑操作;应具备机柜各项指标汇聚与展示功能,如温度、功耗、气流、进风口温度和出风口温度等;应具备机柜功耗策略设置功能,支持动态功耗策略和最低功耗策略;OCTC BB012024 11 应支持通过传感器或其他方式实时监测设备的插拔状态,并自动识别设备类型和位置信息;应支持记录每个设备的位置和历史移动轨迹;应支持通过传感器实时监测每个 U 位的温度、湿度和电力等参数。5.2 监控管理 监控管理是指利用硬件设备及技术手段,对计算资源、存储资源、网络资源等关键基础设施的各个部件的状态、性能、日志和告警进行实时监控、数据采集和分析,以实现对基础设施运行状态的全面掌握和管理。监控管理是数据中心和
34、大型企业中非常重要的一个环节,可以帮助管理员及时发现和解决基础设施的故障和性能问题,保证业务的稳定运行。5.2.1 状态监控 状态监控是指通过硬件或软件工具对计算资源、存储资源、网络资源等关键基础设施及其相关部件状态进行实时监控,以确保这些设备处于正常工作状态。(1)计算资源 应支持计算资源的上下电状态监控;应支持计算资源的网络状态监控;应支持服务器部件的状态监控,部件包括 CPU、GPU、内存、电源、风扇、网卡、硬盘、RAID卡等:CPU 的部件状态监控包含:CPU 温度检测、CPU 内部错误(IERR)、CPU 处理降速等;GPU 的部件状态监控包含:GPU 不在位检测、GPU 状态异常、
35、GPU 利用率超出阈值、GPU温度超出阈值、GPU 风扇转速异常等;风扇的部件状态监控包含:风扇不在位检测、风扇冗余丢失、风扇转速异常等;内存的部件状态监控包含:内存不在位检测、内存故障、内存 ECC 错误、奇偶性校验错误等;电源的部件状态监控包含:电源不在位检测、电源故障、电源冗余丢失、电源输入缺失、电源输入电压越界等;T/CESA BB012024 12 网卡的部件状态监控包含:网卡不在位检测、网卡故障检测、端口连通性检测、收发字节数阈值监控等;硬盘的部件状态监控包含:硬盘插拔检测、SSD 剩余寿命检测、硬盘驱动器故障等;RAID 卡的部件状态监控包含:RAID 卡不在位检测、RAID 卡
36、温度检测、RAID 卡缓存故障等;其他状态监控包含:温度监控,如入风口、出风口温度异常监控,电压、电流监控,如整机/部件的输入欠压欠流、过压过流等。(2)存储资源 硬件监控中的日志监控功能对于存储设备(包括统一存储和分布式存储)的状态监控至关重要,应支持以下部件和整机状态监控:应支持实时监控存储控制器的状态,包括控制器的工作状态、故障状态、性能指标等;应支持实时监控存储介质的运行状态,如硬盘、SSD 等,包括读写速度、故障状态、使用情况等;应支持实时监控缓存的状态,如缓存的工作状态、容量和使用情况等;应支持实时监控网络接口的状态,如网络接口的工作状态、故障状态、网络流量等;应支持实时监控系统电
37、源的状态,如电源的工作状态、故障状态等;应支持实时监控系统风扇的状态,如风扇的工作状态、转速等;应支持实时监控环境传感器的状态,如温度、湿度等。此外,对于存储设备的整机状态监控,应支持以下功能:应支持实时监控存储设备的整体性能状态,如 I/O 吞吐量、响应时间等;应支持实时监控存储设备的总容量和可用容量,以了解存储空间的使用情况;应支持实时监控存储设备的故障状态,及时发现并处理故障问题;应支持实时监控存储设备的配置信息,包括系统版本、设备名称、IP 地址等;应支持实时收集、分析存储设备的运行日志,以便在设备发生故障或异常时及时发现并处理。同时,对于分布式存储的状态监控,应支持以下额外功能:应支
38、持实时监控每个节点的状态,包括节点的工作状态、故障状态等;应支持实时监控分布式存储的数据同步状态,以确保数据的完整性和一致性;OCTC BB012024 13 应支持实时监控分布式存储的数据保护情况,包括备份和恢复状态等。(3)网络资源 应支持实时监控电源模块的工作状态、故障状态等;应支持实时监控风扇模块的工作状态、转速等;应支持实时监控交换机的各个端口的状态,如连接状态、传输速率、错误统计等;应支持实时监控路由器的各个端口的状态,如连接状态、带宽、错误统计等;应支持实时监控交换机/路由器的处理器的工作状态、使用情况等;应支持实时监控交换机/路由器的内存的使用情况、故障状态等;应支持实时监控网
39、络接口模块的工作状态、故障状态等;应支持实时监控设备的整体性能,如吞吐量、延迟等;应支持实时监控设备与网络的连接状态,如连接状态、丢包率等;应支持实时监控设备的故障状态,及时发现并处理故障问题;应支持实时监控设备的配置信息,如 IP 地址、设备名称等;应支持实时监控设备的安全状态,如防火墙规则、访问控制列表(ACL)的状态等。(4)供电设备 应支持实时监控设备的在线通信状态;应支持实时监控供配电进线电源的电压、电流、电能等参数,各支路的电流、功率、电能等参数,以及各支路的开关状态;应支持对监测到的各项参数设定阈值(包括上下限、恢复上下限),一旦供配电发生越限报警或故障,系统将自动产生报警事件,
40、并第一时间发出电话拨号、手机短信、E-Mail、声光等对外报警;应支持生成曲线记录,直观显示实时及历史曲线,可查询特定时间段内的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为文件,方便管理员全面了解供配电的运行状况。(5)制冷设备 制冷设备包含空调设施、液冷设施等。平台对冷却设备状态监控要求如下:T/CESA BB012024 14 应支持实时监控冷却设备的在线通信状态;应支持实时监控制冷设备的开关机状态;应支持实时监控空调机组、风扇、制冷、回送风温度和湿度传感器的运行状态,支持温度、湿度、告警复位、温度偏差、回风温度、除湿偏差、主控方式的设定,并可对空调实现远程开关机
41、的控制,同时支持与其它子系统的联动控制,如当温度过高时自动启动空调进行制冷;应支持实时监控液冷设备的信息,包括但不限于冷板监控(漏液)、CDU 监控(运行模式、流量、温度、压力)、连接系统监控(运行状态、环路状态)、冷却工质监控(腐蚀度、物性参数)、冷源监控(温度、压力、流量);应支持对监测到的各项参数设定阈值(包括上下限、恢复上下限),例如制冷设备发生越限报警或故障时,系统将自动产生报警事件,并立即发出电话拨号、手机短信、电子收邮件、声光等对外报警;应支持提供曲线记录,直观显示实时及历史曲线,可查询特定时间段内的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为文件,便于
42、管理员全面了解制冷设备的运行状况。(6)环境设备 应支持实时监控设备的在线通信状态;应支持通过数据库进行微环境监控阈值设置,例如对环境温度、漏水、烟感、通风系统的各项参数设定阈值,一旦发生越限报警或故障,系统将自动产生报警事件,并第一时间发出电话拨号、手机短信、E-Mail、声光等对外报警,以实现监控平台软件对微环境的实时监测;应支持根据不同时间来显示不同时期的温度/湿度曲线,如 24 小时、7 天、30 天等;应支持提供曲线记录,直观显示实时及历史曲线,可查询特定时间段内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为文件,方便管理员全面了解环境设备的运行状况
43、。(7)照明设备 应支持实时监控设备的在线通信状态;照明光源应采用安全电压等级供电的 LED 灯条,宜采用支架内嵌入安装方式;应支持灯带颜色告警联动指示功能,不同告警显示不同颜色;OCTC BB012024 15 应支持告警等级及指示灯光颜色3 种,并与动环管理系统联动,无告警时通道灯为白光,紧急告警时通道灯为红光,且支持自定义告警联动。(8)消防设备 应支持实时监控设备的在线通信状态;应支持实时监测机房内的消防火警信号,一旦发生报警,系统自动产生报警事件,并第一时间发出电话拨号、手机短信、E-Mail、声光等对外报警。5.2.2 性能监控 性能监控通过采集计算资源、存储资源、网络资源等设备性
44、能数据,对实时或历史数据进行分析和展示,它旨在帮助管理员了解设备的运行情况及变化趋势。(1)计算资源 应支持计算资源的单机或批量实时性能数据、历史性能数据的导出;应支持用户自定义时间范围的历史性能数据导出,格式包括但不限于 CSV、PDF、HTML;应支持用户设置计算设备的性能数据采集频率,包括实时、每日、每周或自定义时间间隔;应支持显示所有性能采集任务的状态,如运行中、运行成功、运行失败等,对于失败的任务,应提供失败原因并支持重试功能;应支持查看性能采集任务的执行历史记录;应支持归一化负载计算方式,支持多种指标类型,包括 CPU、内存、I/O、网络、电源负载等;应支持设备实时负载分析;应支持
45、系统瓶颈识别,指标包括但不限于 CPU、内存、磁盘 I/O、网络带宽等;应支持设备性能基线定义,确定正常工作负载下的标准性能水平;应支持计算资源指标的 Top N 排名,用户可自定义关注的设备和指标,Top N 指标包括但不限于整机功率、气流、设备温度、电源功率、CPU、内存、GPU、硬盘、网络等;应支持计算资源的整机功率的监控,支持实时性能数据、历史性能数据展示;应支持计算资源的气流的监控,支持实时性能数据、历史性能数据展示;应支持计算资源的设备温度的监控,包括入风口、出风口、CPU、硬盘等指标;应支持计算资源的电源功率的性能监控,包括输入功率、输出功率等指标;T/CESA BB012024
46、 16 应支持计算资源的风扇/制冷设备监控,例如风扇转速、风扇占空比等指标;应支持计算资源的 CPU 性能监控,包括总 CPU 利用率,单核 CPU 利用率等指标;应支持计算资源的内存性能监控,包括总内存使用率、SWAP 使用率等指标;应支持计算资源的 GPU 性能监控,包括 GPU 温度、GPU 功耗、GPU 显存使用率、GPU 利用率、GPU 频率、GPU 风扇转速百分比等指标;应支持计算资源的硬盘性能监控,包括硬盘读写次数、硬盘响应时间、读写速率等指标;应支持计算资源的网络性能监控,包括端口收发速率等指标。(2)存储资源 应支持存储资源的单机或批量实时性能数据、历史性能数据的导出;应支持
47、用户自定义时间范围的历史性能数据导出,格式包括但不限于 CSV、PDF、HTML;应支持用户设置存储设备的性能数据采集频率,包括实时、每日、每周和自定义时间间隔;应支持显示所有性能采集任务的状态,如运行中、运行成功、运行失败等,对于失败的任务,应提供失败原因并支持重试功能;应支持查看性能采集任务的执行历史记录;应支持归一化负载计算方式,支持多种指标类型,包括 CPU、内存、I/O、网络、电源负载等;应支持设备实时负载分析;应支持系统瓶颈识别,指标包括但不限于 CPU、内存、磁盘 I/O、网络带宽等;应支持设备性能基线定义,确定正常工作负载下的标准性能水平;应支持存储资源指标的 Top N 排名
48、,用户可自定义关注的设备和指标,Top N 指标包括但不限于整机功率、气流、设备温度、电源功率、CPU、内存、硬盘、网络、控制器、节点、卷等;应支持存储资源的整机功率的监控,支持实时性能数据、历史性能数据展示;应支持存储资源的气流的监控,支持实时性能数据、历史性能数据展示;应支持存储资源的设备温度的监控,包括入风口、出风口、CPU、硬盘、磁盘框等指标;应支持存储资源的电源功率的性能监控,包括输入功率、输出功率等指标;应支持存储资源的风扇/制冷设备监控,例如风扇转速、风扇占空比等指标;应支持存储资源的 CPU 性能监控,包括总 CPU 利用率,单核 CPU 利用率指标;应支持存储资源的内存性能监
49、控,包括总内存使用率、SWAP 使用率等指标;OCTC BB012024 17 应支持存储资源的硬盘性能监控,包括硬盘读写次数、硬盘响应时间、读写速率、硬盘利用率等指标;应支持存储资源的网络性能监控,包括端口收发速率等指标;应支持存储资源控制器性能监控,包括但不限于控制器 Cache 读命中、Cache 写命中、控制器Cache IO 等;应支持存储资源的节点 IO 性能监控,指标包括读 IO、写 IO 等;应支持存储资源的卷性能监控,指标包括卷总带宽、卷读带宽、卷写带宽、每秒 IO 次数等。(3)网络资源 应支持网络资源的单机或批量实时性能数据、历史性能数据的导出;应支持用户自定义时间范围的
50、历史性能数据导出,格式包括但不限于 CSV、PDF、HTML;应支持用户设置网络设备的性能数据采集频率,包括实时、每日、每周和自定义时间间隔;应支持显示所有性能采集任务的状态,如运行中、运行成功、运行失败等,对于失败的任务,应提供失败原因并支持重试功能;应支持查看性能采集任务的执行历史记录;应支持归一化负载计算方式,支持多种指标类型,包括 CPU、内存、I/O、网络、电源负载等;应支持设备实时负载分析;应支持系统瓶颈识别,指标包括但不限于 CPU、内存、磁盘 I/O、网络带宽等;应支持设备性能基线定义,确定正常工作负载下的标准性能水平;应支持网络资源指标的 Top N 排名,用户可自定义关注的
51、设备和指标,Top N 指标包括但不限于整机功率、设备温度、电源功率、缓存、端口、CPU、内存、单板、会话、板卡等;应支持网络资源的整机功率的监控,支持实时性能数据、历史性能数据展示;应支持网络资源的设备温度的监控,包括入风口、出风口、CPU、硬盘等指标;应支持网络资源的电源功率的性能监控,包括输入功率、输出功率等指标;应支持网络资源的 CPU 性能监控,包括总 CPU 利用率,单核 CPU 利用率等指标;应支持网络资源的内存性能监控,包括总内存使用率、内存使用量等指标;应支持网络资源的端口性能监控,包括端口速率、发送速率、接收速率、发包率、收包率、带宽、接收字节、接收单播包数、接收丢包数、接
52、收错包数、发送字节、发送单播包数、发送丢包数、T/CESA BB012024 18 发送错包数、接收组播包数、接收广播包数、发送组播包数、发送广播包数、总字节数、接收未知协议包数等指标;应支持网络资源的单板性能监控,包括 CPU 利用率、内存利用率、温度、电压等指标;应支持网络资源的会话性能监控,包括最大连接数、当前连接数等指标;应支持网络资源的板卡性能监控,包括 CPU 利用率、内存利用率等指标。5.2.3 日志监控 日志监控是指收集、分析以及数据视图化等功能,帮助用户提升运维、运营效率,快速查找和定位问题,广泛应用于在线实时监控、异常问题定位、日志数据统计分析、安全与合规审计等场景。(1)
53、计算资源 应支持实时日志监控:实时地收集、分析计算设备的运行日志,以便在设备发生故障或异常时立即发现并处理;应支持历史日志回溯:能够存储和查询计算设备的历史运行日志,帮助管理员追踪设备在特定时间段内的状态变化,快速定位和解决问题;应支持日志筛选和分析:能够根据关键词、级别、时间等条件筛选日志,并支持对筛选后的日志进行分析,帮助管理员更好地了解计算设备的运行状况;应支持可视化监控:能够将计算设备的运行数据以图表、图形等形式展示出来,使管理员可以更直观地了解设备运行状态,发现问题并进行优化;应支持多种计算设备的监控:能够监控不同品牌、型号的计算设备,以满足不同用户的需求;应支持自动巡检和报告生成:
54、能够定期对计算设备进行自动巡检,并生成详细的巡检报告,帮助管理员更好地了解设备的健康状况和管理历史;应支持日志聚合和归档:能够将计算设备的日志数据聚合到一起,进行长期归档存储,以备后续的查询和分析;应支持带内外日志的采集;支持的日志类型包括 BMC、BIOS、CPU、Memory、NIC、RAID、Disk、Driver、SysConf、System、GPU、HBA 等;日志包含的内容包括但不限于 FRU 信息、BMC 版本信息、BMC 启用信息、BMC GUID、BMC 自检、BMC Watch Dog 信息、SEL 日志、传感器列表、BMC 时间、BMC 专用管理口网OCTC BB0120
55、24 19 络信息、BMC 共享管理口网络信息、BMC Channel 信息、BMC 用户信息、BMC 防火墙信息、BMC session 信息、BMC SOL 信息、ME 状态、CPU 信息、CPU 连通状态、DMI 信息、BIOS选项信息、内存信息、网络信息、RAID 事件日志、物理磁盘、逻辑磁盘信息、PMC 日志、磁盘 S.M.A.R.T 信息、硬盘信息、驱动信息、系统配置信息、系统日志、GPU 信息、HBA 信息等。(2)存储资源 应支持实时日志监控:实时地收集、分析存储设备的运行日志,以便在设备发生故障或异常时及时发现并处理;应支持历史日志回溯:能够存储和查询存储设备的历史运行日志,
56、帮助管理员追踪设备在特定时间段内的状态变化,快速定位和解决问题;应支持日志筛选和分析:能够根据关键词、级别、时间等条件筛选日志,并支持对筛选后的日志进行分析,帮助管理员更好地了解存储设备的运行状况;应支持可视化监控:能够将存储设备的运行数据以图表、图形等形式展示出来,使管理员可以更直观地了解设备运行状态,发现问题并进行优化;应支持多种存储设备的监控:能够监控不同品牌、型号的存储设备,包括统一存储和分布式存储等,以满足不同用户的需求;应支持自动巡检和报告生成:能够定期对存储设备进行自动巡检,并生成详细的巡检报告,帮助管理员更好地了解设备的健康状况和管理历史;应支持日志聚合和归档:能够将存储设备的
57、日志数据聚合到一起,进行长期归档存储,以备后续的查询和分析。(3)网络资源 应支持实时日志监控:实时地收集、分析网络设备的运行日志,以便在设备发生故障或异常时及时发现并处理;应支持历史日志回溯:能够存储和查询网络设备的历史运行日志,帮助管理员追踪设备在特定时间段内的状态变化,快速定位和解决问题;应支持日志筛选和分析:能够根据关键词、级别、时间等条件筛选日志,并支持对筛选后的日志进行分析,帮助管理员更好地了解网络设备的运行状况;T/CESA BB012024 20 应支持可视化监控:能够将网络设备的运行数据以图表、图形等形式展示出来,使管理员可以更直观地了解设备运行状态,发现问题并进行优化;应支
58、持多种网络设备的监控:能够监控不同品牌、型号的网络设备,包括交换机、路由器等,以满足不同用户的需求;应支持自动巡检和报告生成:能够定期对网络设备进行自动巡检,并生成详细的巡检报告,帮助管理员更好地了解设备的健康状况和管理历史;应支持日志聚合和归档:能够将网络设备的日志数据聚合到一起,进行长期归档存储,以备后续的查询和分析。5.2.4 告警管理 告警管理是指对系统或设备等运行过程中产生的告警信息进行监视、处理和记录的一种管理方式。告警管理主要针对系统或设备在运行过程中出现故障、异常等情况下,通过对告警信息进行实时监视、及时处理和记录,以确保系统或设备的稳定、可靠和安全运行。在总体原则上,告警功能
59、应遵循尽早预警、快速告警、不误告警、不漏告警的原则。这意味着需要对系统或设备的运行状况进行实时监控,并确保所产生告警信息的准确性和及时性。通过有效的告警管理,可以更好地保障系统或设备的稳定性和安全性,并及时采取相应的措施解决问题,从而提升整个系统的可靠性和稳定性。(1)告警管理 应支持对多种系统或设备的告警信息进行监视和处理,包括计算资源、网络资源、存储资源等;应支持对告警信息进行实时监视和快速响应,包括实时数据采集、告警阈值设置、告警触发条件等;应支持对告警信息进行分类、分析、定位和解决,包括故障定位、异常分析、解决方案生成等;应支持定义多种告警级别:系统应该能够定义不同的告警级别,例如紧急
60、、严重、中度、轻微等,每个级别可以对应不同的颜色和声音,以便操作人员快速识别和响应;应支持自定义告警级别:用户应该能够根据自己的需求和环境定义告警级别,例如在某些情况下,某些告警可能比其他告警更重要或更紧急;应支持针对告警级别的响应策略:系统应该能够定义针对不同告警级别的响应策略,例如当触发紧急级别告警时,系统应该自动发送邮件、短信或语音呼叫通知相关人员;OCTC BB012024 21 应支持对告警信息进行详细记录和存储,包括告警时间、告警类型、告警级别、告警原因、告警影响等;应支持对告警信息进行过滤、筛选和聚合,以避免误报和漏报现象的发生;应支持对告警管理流程进行自定义和优化,包括告警阈值
61、设置、告警通知流程、告警处理流程等;应支持可配置的告警规则,能针对不同的设备类型,不同的应用场景定义不同的告警规则;应支持自动化的故障恢复建议和优化建议,以帮助管理员快速解决问题并提高系统性能;应支持多语言的告警提示,满足不同国家和地区的用户需求;应支持对告警信息进行统计、分析和报告,包括告警趋势分析、故障频率统计、故障处理报告等;应支持对历史告警数据进行查询和分析,应支持生成告警统计报表和趋势分析图表;应支持通过多种方式进行告警通知,例如邮件、短信、电话语音、企业微信、钉钉等;应支持采用开放标准和接口,以便与其他系统的集成和扩展。(2)事件管理 应支持对多种系统或设备的事件信息进行监视和处理
62、,包括计算资源、网络资源、存储资源等;应支持事件的实时监控和响应,包括实时数据采集、事件告警触发条件等;应支持事件的分类、分析、定位,包括事件类型、事件明细、事件位置、事件源等;应支持事件的多维度筛选和过滤,包括时间、事件类型、事件定位、事件源等,以便快速定位和筛选出关键事件;应支持事件的详细记录和存储,包括事件时间、事件类型、事件明细、事件影响等,以备后续查询和分析;应支持事件的通知和提醒,包括通过邮件、短信、电话语音等多种方式进行通知,以便及时处理和解决事件;应支持采用开放标准和接口,以便与其他系统的集成和扩展。(3)告警规则 应支持单个阈值触发规则:系统应该能够为每个告警设置一个单独的阈
63、值触发规则,这意味着每个告警都可以根据其特定的性质和业务需求设定自己的阈值;T/CESA BB012024 22 应支持多个阈值触发规则:对于某些告警,可能需要设定多个不同的阈值触发规则;应支持逻辑运算符:在设置阈值触发规则时,可能需要使用逻辑运算符,如 AND、OR、NOT等来组合多个条件;应支持比较运算符:在设置阈值触发规则时,可能需要使用比较运算符,如大于、小于、等于等来比较告警数据和预设阈值,系统应该支持这些比较运算符的使用;应支持基于时间或事件的阈值触发规则:系统应该能够基于时间或事件的数量来设置告警阈值触发规则,例如,在某些情况下,某个告警可能需要在一定时间内达到一定数量才会被触发
64、;应支持基于数据变化的阈值触发规则:对于某些告警,可能需要根据数据的变化速度或变化量来设定阈值触发规则,系统应该支持基于数据变化的速度或量设定告警阈值触发规则;应支持自定义阈值触发规则:用户应该能够根据自己的需求自定义阈值触发规则。(4)屏蔽规则 应支持告警屏蔽规则设置:系统应该能够为每个告警设置一个或多个屏蔽规则,以防止特定告警被触发或显示,这些规则可以基于时间、设备、位置、告警级别、告警类型等条件来定义;应支持多种告警屏蔽规则:系统应该能够定义多种类型的屏蔽规则,例如临时屏蔽、长期屏蔽、特定时间段的屏蔽等,这些规则可以根据用户需求进行自定义;应支持告警屏蔽规则的触发条件:系统应该能够定义告
65、警屏蔽规则的触发条件,例如在某个时间段内、特定设备上、某个告警级别等条件下,特定告警将被屏蔽;应支持告警屏蔽规则的逻辑运算符:在设置告警屏蔽规则时,可能需要使用逻辑运算符,如 AND、OR、NOT 等来组合多个条件,系统应该支持这些逻辑运算符的使用;应支持告警屏蔽规则的生效时间:系统应该能够设置告警屏蔽规则的生效时间,例如立即生效、指定时间后生效等;应支持告警屏蔽规则的触发效果:系统应该能够定义告警屏蔽规则触发后的效果,例如将告警标记为被屏蔽告警、停止发送给用户通知等;应支持自定义告警屏蔽规则:用户应该能够根据自己的需求自定义告警屏蔽规则。(5)通知管理 应支持多种告警通知方式:系统应该能够支
66、持多种告警通知方式,如邮件、短信、语音电话、企业微信、钉钉等,用户可以根据实际需求选择通知方式;OCTC BB012024 23 应支持自定义告警通知内容:系统应该允许用户自定义告警通知的内容,包括告警描述、重要程度、处理建议等,用户可以按照自己的需求设置通知内容;应支持告警通知的定时发送:在某些情况下,可能需要在特定时间范围内发送告警通知,系统应该支持定时发送功能,以实现灵活的通知计划;应支持告警通知的触发条件:系统应该能够根据特定的条件触发告警通知,例如,当某个告警状态发生变化时或针对某些级别的告警状态发生变化时,可以发送通知;应支持告警通知的触发时机:系统应该能够根据特定的时机触发告警通
67、知,例如,在某个时间段内、特定工作日或节假日等条件下,可以发送告警通知;应支持告警通知的逻辑运算符:在设置告警通知的触发条件时,可能需要使用逻辑运算符,如AND、OR、NOT 等来组合多个条件,系统应该支持这些逻辑运算符的使用;应支持自定义告警通知模板:用户可以根据自己的需求自定义告警通知模板,以便快速、准确地发送通知;应支持告警通知的优先级设置:在某些情况下,需要根据告警的重要程度设置通知的优先级,系统应该支持优先级设置功能,以便更好地管理告警通知;应支持告警通知的日志记录:系统应该能够记录每个告警通知的发送情况,包括发送时间、接收人、通知内容等,以便后续查看和管理;应支持告警通知的测试和演
68、练:为了确保告警通知的可靠性和可用性,系统应该提供测试和演练功能,以便用户在实际使用前对通知功能进行测试和演练。5.2.5 智能分析 旨在采用自动化、智能化的手段,利用日志、性能等数据,对性能、故障进行预测并实现故障的根因定位。(1)性能预测 应支持对存储容量进行预测,包括固态硬盘和机械硬盘等;应支持对 CPU、GPU 利用率进行预测,基于历史数据预测未来,预测时间包括分钟、小时、天等;应支持对设备整体功耗进行预测,基于历史数据预测未来,预测时间包括分钟、小时、天等;应支持对 I/O 读写速率进行预测,基于历史数据预测未来,预测时间包括分钟、小时、天等;T/CESA BB012024 24 应
69、支持对内存利用率进行预测,基于历史数据预测未来,预测时间包括分钟、小时、天等;应支持对 CPU、GPU 温度进行预测,基于历史数据预测未来,预测时间包括分钟、小时、天等。(2)服务器故障管理 应支持服务器部件和整机故障检测、根因定位以及故障预测,具体包括:应支持预测存储介质的运行故障状态,包括磁盘的 IO 队列大小、I/O 操作平均等待时间、吞吐量、延迟时间、磁盘失效等;应支持预测 CPU 的运行故障状态,包括内部错误、温度过高、复杂不可更正错误预测等;应支持预测/定位 RAID 卡故障状态,包括逻辑盘的状态预测、掉盘预测、异常物理位置定位等;应支持预测内存的运行故障状态,包括可更正错误、不可
70、更正错误、温度过高预测等;应支持预测网络的运行故障状态,如网络流量、端口故障状态预测以及故障端口位置定位等;应支持预测电源的故障状态,如温度过高、电压异常波动、电源失效等;应支持预测风扇的故障状态,如风扇转速异常、噪声异常预测以及故障根因定位等;应支持预测 PCIe 的故障状态,如传输速率、延迟时间、传输错误率、温度异常预测以及故障 PCIe卡根因定位等;应支持检测服务器整机的故障状态,包括硬件故障、电源故障、缓存故障、网络故障预测以及硬件、网络等设备的故障根因定位分析等。5.3 配置管理 配置管理是指利用硬件设备及技术手段,对计算资源、存储资源以及网络资源的固件、配置、操作系统以及应用情况进
71、行远程管理,涉及固件的升级、BMC、BIOS 配置、操作系统部署以及带内操作系统应用的监控和管理等,以实现足不出户完成远程设备的能力。5.3.1 服务器配置 服务器配置是指通过使用带内外网络和相关技术手段,能够对数据中心的服务器进行远程管理的一种能力,其包括以下几个方面:(1)固件升级 应支持服务器固件升级能力,可升级固件包括 BMC、BIOS、网卡、硬盘,RAID 卡等;OCTC BB012024 25 应支持固件升级过程中同版本校验和跳过设置;应支持升级前后版本对比和升级过程日志查看;应支持升级固件的自动下载和维护。(2)固件配置 应支持服务器 BMC 的功能的批量配置能力,能够基于某一
72、BMC 和 BIOS 创建通用配置模板并批量应用到目的设备;应支持服务器 BIOS 配置项配置能力,支持配置完成后校验,支持常见 BIOS 配置项如电源策略设置、启动项设置等快捷操作;应支持服务器 SNMP Trap 批量配置,配置项包括 Trap 版本、团体名、策略、事件严重性、告警目标以及端口等;应支持服务器管理用户的批量管理,支持添加、修改以及修改 BMC 用户;应支持服务器 NTP 批量设置,设置项包括模式(自动/手工)、时区、NTP 服务器等;应支持服务器 BMC 服务管理,服务包括 KVM、CD-Media、HD-Media 以及 SSH;应支持服务器 LDAP 批量设置,设置项包
73、括加密类型、服务器地址、端口、绑定 DN、密码、搜索库、用户登录属性等;应支持服务器日志设置的批量配置,设置类型包括告警发送级别、传输协议、日志服务器地址、端口、日志类型等;应支持服务器 SMTP 设置批量配置,设置项包括 SMTP 服务器地址、端口、发件人电子邮件、用户名、邮件主题、告警发送级别、告警邮件地址等;应支持服务器 DNS 批量配置,配置项包括域名服务器是否自动、域名服务器地址;应支持服务器的其他配置,包括批量恢复出厂设置、BMC 重启、虚拟介质挂载、定位灯设置、风扇转速等。(3)系统部署 应支持裸机发现功能,支持自动发现物理机并自动上报物理机基础信息,包括 SN、厂商、机型、架构
74、、BMC 和 BIOS 版本、CPU、内存以及存储信息等;应支持系统批量安装功能,支持的操作系统包括 CentOS、Redhat、SUSE、Windows Server、ESXi、Kylin、UOS、KOS 等;T/CESA BB012024 26 应支持系统安装模板创建,支持设置的参数为系统类型、安装包、语言、时区、root 密码、自定义账户、分区信息等,应支持自定义自动应答脚本;应支持系统安装模板管理功能,支持查看、编辑、删除以及应用模板到目标设备;应支持镜像管理功能,允许用户上传、编辑、修改和删除镜像,镜像属性包括发行版、版本、架构、大小等;应支持查看系统安装过程,允许用户查看安装过程的
75、日志,支持快捷跳转 KVM 查看实时信息;应支持系统安装完成后批量配置网络,支持设置不小于 3 个网口的 IP、网关和掩码,支持批量设置网卡 Bond。(4)应用管理 应支持操作系统带内文件管理,具体包括:模板管理:模板的查询、创建、删除、编辑、应用;文件分发:支持指定分发文件和目的路径,指定是否覆盖目的路径下的原始文件,指定是否备份目的路径下的原始文件;应支持操作系统带内脚本管理,具体包括:模板管理:模板的查询、创建、删除、编辑、应用;脚本执行:支持指定脚本类型和执行器,从仓库选择脚本文件或输入文件内容,指定脚本的执行路径,指定用户输入的脚本是否同步到脚本仓库;应支持操作系统用户管理,具体包
76、括:用户管理:用户列表的查询和展示、创建用户、删除用户、启用用户、禁用用户、修改用户密码、添加用户权限,移除用户权限;用户组管理:用户组列表的查询和展示、创建用户组、删除用户组、修改用户组名;应支持操作系统带内服务管理,包括服务状态查询和展示、服务开启和关闭、服务添加到基线和取消、查看已添加到基线的服务的基线执行历史;应支持操作系统带内软件管理,具体包括:模板管理:模板的查询、创建、删除、编辑、应用;选择执行目标操作系统类型和架构,指定从安装源或软件包安装软件;OCTC BB012024 27 从安装包安装:支持指定待安装软件类型、软件包文件、软件安装目的路径、是否卸载原始软件和软件安装成功的
77、校验脚本、系统应预置若干软件的安装流程,支持使用软件安装高级配置,例如自定义软件安装脚本和辅助文件;从安装源安装:支持选择系统已经配置的本地安装源,支持通过指定源脚本和校验脚本的方式,安装源内软件;应支持操作系统带内软件的编排模板管理,具体包括:模板编辑管理:模板的查询、创建、删除、编辑、应用;支持立即上传本地模板、从仓库选择已上传的模板、立即编辑模板,支持在系统指定路径查看设备各主机的模板执行日志。(5)基线管理 应支持服务器固件基线管理能力,支持绑定 BMC、BIOS 和 PSU 版本;应支持服务器基线策略管理,包括基线策略的查询、展示、新增、删除、编辑、启用和禁用,支持指定基线策略使用的
78、固件升级模板和基线适用的设备列表;应支持服务器基线历史管理,包括基线执行历史的查询、展示和删除。(6)快照管理 应支持服务器配置快照管理能力,支持采集服务器 BMC 配置形成快照并还原;应支持快照策略管理,包括快照策略的查询、展示、新增、删除、编辑和应用,支持指定快照类别:BMC 和(或)BIOS,支持快照执行模式的设置,包括立即执行、定时执行和周期执行,支持指定快照适用的机型和设备列表;应支持快照历史管理,包括支持通过列表视图和设备视图两种方式查询和展示快照历史,支持执行设备快照的删除和还原设备到指定快照。5.3.2 网络配置 网络配置是指对数据中心的网络设备进行远程配置管理,主要包括网络分
79、区、服务管理、端口设置、固件升级以及访问策略设置等。应支持网络分区功能,能够按需划分网络片区,便于设备物理位置的识别及统一管理,还可设置分区的网络类型用于网络业务配置的统一下发;T/CESA BB012024 28 应支持 IP 组策略的配置,通过 IP 组策略实现业务按需引流,满足不同业务的流量需求;应支持配置模板能力,方便用户对基于区域的网络及监控做配置规划,减轻用户复杂配置压力;应支持配置备份及对比能力,提供交换机历史配置文件备份及不同日期的配置对比;应支持交换机服务配置能力,包括 SysLog、NTP、sFlow Server 的配置管理等;应支持对交换机端口设置,支持配置端口模式、V
80、LAN 及设置端口开关,并支持在端口上配置sFlow 以及 BPDU 等;应支持交换机版本升级,支持从本地推送软件版本到交换机,支持保存交换机的 Running Config到 Start-up Config;应支持交换机网络配置,包括 VRF、MLAG、ACL 访问策略以及 OPSF 等。5.3.3 存储配置 存储配置是指对数据中心的存储设备进行远程配置管理,包括批量配置、远程巡检、故障诊断、硬盘故障预测等功能。应支持批量存储池管理功能,支持对多个存储集群的存储池进行批量增、删、查、改(修改阈值,添加驱动器)的操作;应支持批量逻辑卷管理功能,支持对多个存储集群的逻辑卷进行批量增(基础卷、镜像
81、卷)、删、查、改(修改属性与映射、修改 QoS 配置、取消映射)的操作;应支持对存储集群的用户管理功能,支持对多个存储集群的用户和用户组进行批量增、删、查、改(修改密码、修改所属用户组)的操作;应支持批量主机管理功能,支持对多个存储集群的主机进行批量增、删、查,改(修改主机映射、取消主机映射)的操作;应支持批量 SNMP 配置管理功能,支持对多个存储集群的 SNMP 配置进行批量增、删、查、改(IP、端口、社区名、告警开关)的操作,支持对多个存储集群的 USM 用户进行增、删、查、改(权限、安全级别、鉴权算法和密码、加密算法和密码)的操作;应支持配置复制功能,支持对多个统一存储集群的配置进行复
82、制,包括创建卷、创建池、创建Mdisk、添加 Mdisk 到池、创建 SNMP;应支持本地存储容灾功能,支持本地卷的定时快照、实时快照、快照回滚功能;应支持远程存储容灾功能,支持生产卷和本地卷的同步远程复制。OCTC BB012024 29 5.4 能耗管理 能耗管理旨在精细化控制和监测数据中心及其设备在运行时的电力消耗,以确保数据中心能够持续、高效地提供计算服务,同时最大限度地降低能源成本和对环境的负担。5.4.1 能耗监控 能耗监控管理为数据中心提供全面的能耗监控与策略管理。它可以实时监测设备功耗,设置功耗限制策略,并根据策略控制设备的运行。同时,还支持与动环供电和环境监测系统联动,确保数
83、据中心的高效和稳定运行。应支持实时监控设备的功耗情况,能够提供实时的功耗数据;应支持针对设备制订相应的功耗限制策略,以限制服务器的最大功耗,功耗策略包括是否启用、周期性启用、功耗上限设置等;应支持根据功耗策略控制设备的开关机;应支持展示功耗策略生效时间段和效果,包括生效开始时间、结束时间、功耗封顶上限;应支持功耗生效预警及告警功能,在接近预设上限和到达上限时发送告警;应支持不同的设备类型和模型,能够提供专门的功耗管理策略模板;应支持与动环供电系统联动,根据设备的负载情况实时调整电力供应,如降低或增加 UPS 供电;应支持与动环温湿度系统联动,实时监测数据中心的湿度、温度等环境因素,自动调整以确
84、保最佳运行环境;应支持根据设备的热度和运行情况,推荐机柜的最佳布局或迁移策略。5.4.2 能耗统计 能耗统计是指对数据中心的各个用电设备能耗情况进行统计,以方便管理员能及时了解数据中心的能耗情况。应支持总体能源消耗的统计:数据中心的总体能源消耗包括 IT 设备、冷却和其他设备的消耗;应支持功耗效率的统计:使用特定的功耗效率(PUE)指标来衡量数据中心的能效;应支持 IT 设备功耗的统计:IT 设备的能耗包括服务器、存储设备、网络设备等;应支持冷却系统能耗的统计:冷却系统的能耗包括空调、液冷设备等;应支持不同时间间隔和形式的统计。T/CESA BB012024 30 5.4.3 碳排放 碳排放管
85、理能够集中管理碳资产,并提供数据中心碳排放的配置和监控。它支持多种碳排放系数,提供实时和历史碳排放数据,并监测排放趋势及配额预测,有助于环境保护和可持续性目标的实现。应支持碳资产的管理,包含碳资产的录入、编辑、展示等;应支持数据中心碳排放配置,包括碳排放系统、配额、电能使用效率(PUE)等;应支持多种数据中心碳排放系数,包括但不限于静态系统、分时段系统等;应支持碳排放实时数据、历史数据、排放量趋势、配额预计可用时间等。5.5 拓扑管理 拓扑管理是指对网络拓扑结构和位置拓扑结构进行有效管理和控制的过程。它可以包括两个方面:网络拓扑管理和 3D 机房管理。5.5.1 网络拓扑 网络拓扑管理主要涉及
86、对数据中心网络的物理连接、设备布局以及网络拓扑结构的管理。这包括监测和记录网络中各种设备(如交换机、路由器、服务器等)的位置、连接关系和状态信息,以便及时识别和解决网络故障、优化网络性能,并提供网络规划和扩展的参考。应支持拓扑发现、自动拓扑绘制、自定义拓扑绘制;应支持对网络中设备状态及链路状态的实时监控和告警;应支持网络拓扑结构以图形化的方式展示,直观易懂。5.5.2 3D 机房 3D 机房管理是指基于三维可视化技术对复杂机房结构进行管理、分析和展示。通过将物理位置结构映射到三维空间中,可以更直观地观察和理解位置拓扑关系,提高对位置的感知和操作效率。3D 机房管理可以用于大规模数据中心、云计算
87、环境等复杂位置场景下的可视化管理。应支持设备位置、机柜位置、机房结构以 3D 图形化的方式展示,直观易懂;应支持机柜空间管理,如设备在机柜内位置的移动摆放、机柜编辑等;应支持机房空间管理,机柜在机房内位置的移动、机柜跨机房的移动、机柜移除等;应支持机柜的热力分布图。OCTC BB012024 31 5.6 统计管理 统计管理是指对数据中心物理基础设施的资产、监控系统中的告警以及计算资源、存储资源、网络资源等设备性能数据进行统计和分析。5.6.1 资产 资产统计是指对一个组织或企业拥有的所有资产进行记录、分类和统计的过程。在包括机房和 IT设备在内的资产统计中,会涉及到对机房的数量、机房设备数量
88、占比、设备数量等信息的记录,对 IT设备的厂商、型号、部件、服务器 BIOS 等详细信息的统计,以资产全生命周期方面的报表统计。应支持机房资产数量、机房资产数量百分比、机房资产基本信息统计;应支持计算资源、存储资源、网络资源的厂商和型号统计分析;应支持计算资源、存储资源、网络资源、离线资产的全生命周期统计分析;应支持机架、多节点、智能机柜等不同类型服务器部件信息的类型统计分析;应支持服务器固件如 BMC、BIOS 配置项的统计分析。5.6.2 告警 告警统计是监控系统中非常重要的一个环节。通过综合分析告警数据,可以为操作人员提供全面的告警信息,帮助他们更好地了解系统的运行状况。告警统计应支持以
89、下功能:应支持告警数量的统计:系统能够统计特定时间段内发生的告警数量,以便用户了解告警的总体情况;应支持告警类型的统计:系统能够统计特定时间段内发生的各种类型告警的数量,以便用户了解不同类型的告警发生情况;应支持告警级别的统计:系统能够统计特定时间段内发生的各种级别的告警数量,以便用户了解告警的严重程度;应支持告警解决情况的统计:系统能够统计特定时间段内告警的解决情况,包括已解决的告警数量和未解决的告警数量;应支持告警历史记录的统计:系统能够统计告警的历史记录,包括历史上的告警数量、告警类型、告警级别等;T/CESA BB012024 32 应支持图表展示:系统能够将统计结果以图表的形式展示出
90、来,包括柱状图、折线图、饼图等,以便用户更直观地了解告警情况;应支持报表导出:系统支持将告警统计报表导出为电子表格或其他文件格式,以便用户进行进一步的数据分析和利用。5.6.3 性能 平台能够采集计算、存储、网络等设备的性能数据,对实时或历史数据进行分析和展示,它旨在帮助管理员了解设备的运行情况及变化趋势。应支持用户自定义时间范围的历史性能数据导出,格式包括但不限于 CSV 等;应支持计算资源性能报表统计和导出,包括资源名称、资源 IP、整机功率、气流、设备温度、电源功率、CPU、内存、GPU、硬盘、网络、负载等指标;应支持存储资源性能报表统计和导出,包括资源名称、资源 IP、CPU 利用率、
91、总功耗、设备温度、内存、存储池、节点、磁盘等指标;应支持网络资源性能报表统计和导出,包括资源名称、资源 IP、CPU 利用率、总功耗、设备温度、内存、缓存、端口等指标。5.7 用户管理 用户管理对系统内部的用户权限和身份进行细致化控制。主要目标是确保各类用户能够根据其角色和职责获取适当的权限,从而确保数据中心的安全和高效运行。用户管理主要分为三个核心模块:角色管理、用户管理和认证管理。5.7.1 角色管理 为用户提供完整的角色管理功能。允许用户创建、编辑、删除和查看角色,同时还内置了多种角色类型,包括特权账号。应支持角色管理,包括创建新角色、编辑角色权限、删除角色、查看角色等;应内置角色类型,
92、支持特权账号。OCTC BB012024 33 5.7.2 用户管理 为用户提供全面的用户及用户组管理。它支持单点登录、黑名单管理、特权账号和身份凭证的维护。此外,系统也允许创建、编辑、删除和查看用户及用户组,并提供了细致的访问权限管理功能。应支持单点登录;应支持黑名单管理;应支持特权账号管理;应支持身份凭证管理;应支持用户管理,包括创建新用户、编辑用户、删除用户、查看用户;应支持用户组管理,包括创建用户组、编辑用户组、删除用户组、查看用户组成员等;应支持访问管理,包括但不限于查看、配置、操作等访问权限的管理。5.7.3 认证管理 应支持多种企业级的认证机制,通过灵活的配置和集成选项,用户可以
93、根据自身的需求选择最合适的认证方式:支持多种企业级认证,如 Active Directory、LDAP、Kerberos 等。5.8 安全防范管理 安全防范管理通过整合门禁系统和视频监控系统,为数据中心提供了一个全面的安防监控解决方案。5.8.1 门禁系统 出于对数据中心安全的考虑,对数据中心的各出入口进行门禁管理,在人员进出数据中心时应采用刷卡、按钮的进出验证方式,由监控平台软件通过微模块进行门禁管理。使用门禁控制器(指纹刷卡密码门禁一体机/人脸识别一体机)提供的 TCP/IP 接口及通讯协议,采用网络的方式将门禁信号接入监控主机,由监控平台软件进行门禁的实时管理与监测。应支持实时监控各出入
94、口的人员进出情况,并进行记录;应支持对人员的进出区域、有效日期、进出时段等进行授权,并可对人员进行权限组划分;应支持对门禁控制器进行远程设置操作;T/CESA BB012024 34 应支持集中发卡功能;应支持与其它子系统的联动功能,如:发生火警时联动门禁控制器自动解锁并开启各出入口以便逃生。5.8.2 视频系统 在数据中心出入口、机柜间的通道、走廊等重要区域安装彩色录像设备,进行全天候的视频图像监视。视频统一接入集中管理,支持不同厂商的视频信息互联互通及信息共享。应支持电子地图点播浏览各路实时视频图像,通过在电子地图上点击相应的图标即可查看该录像设备的当前画面;应支持对视频系统进行远程设置操
95、作,包括但不限于录像事件设置、移动侦测设置、联动触发录像设置、录像分辨率设置、存储设置;应支持历史视频检索回放功能,可根据录像的类型、通道、时间等条件进行检索,回放速度可调;应支持与其它子系统的联动功能,支持与告警、门禁联动的视频弹窗,如:门打开或发生防盗报警时联动录像设备进行录像,同时弹出相应的视频画面窗口等。6 平台兼容性 6.1 硬件兼容 硬件兼容是指一种设备、组件或系统能够与其他设备、组件或系统正常工作并相互配合的能力。硬件兼容性对于设备的互通性和扩展性非常重要,它使得不同厂商生产的设备能够无缝地连接和共同工作,为用户提供更多的选择和更好的使用体验。应兼容多种架构处理器,如 x86、A
96、RM、Power 等;应兼容不同厂商的服务器。6.2 软件兼容 软件兼容性是指一个软件应用程序或操作系统能够在不同的硬件平台、操作系统以及其他软件环境中正常运行、协同工作和与其他应用程序进行交互的能力。具体来说,软件兼容性包括操作系统兼容性、应用程序兼容性和数据兼容性等。软件兼容性对于用户来说非常重要,尤其是在不同的硬件、操作系统OCTC BB012024 35 和应用软件环境中,能够正常运行和交互的软件具有更好的可扩展性和适用性,用户可以在不同的平台上使用同一个软件,而无需学习新的工具和界面。应兼容多种虚拟化平台,包含但不限于 InCloud Sphere、OpenStack 等;应兼容多种
97、操作系统,包含但不限于 KOS、UOS、KylinOS、SUSE、CentOS、RedHat 等;应兼容至少一种数据库,如 Mysql、达梦数据库、InfluxDB 等;应兼容多种中间件,包含但不限于 RabbitMQ、Redis、Consul、Elasticsearch、东方通等;应兼容多种浏览器,包含但不限于 Google Chrome、Microsoft Edge 等。7 平台可靠性 平台可靠性是指一个系统或软件平台在长期运行中能够保持稳定、高可用性和高可靠性的能力。具体来说,平台可靠性包含系统稳定性、高可用性、安全性、可伸缩性、容灾备份以及监控和故障排除。7.1 系统稳定性 平台应具备
98、稳定的系统架构和设计,能够在正常运行和高负载情况下维持稳定的性能。它需要具备抗故障和容错机制,以确保系统不会因为单点故障而崩溃或无法正常工作。应具备分布式架构设计,支持服务分布式部署;应支持在高并发访问下持续平稳运行;应支持在大数据文件处理情况下保持性能峰值稳定,正常提供服务。7.2 高可用性 平台需要提供高可用的服务,即用户能够随时访问和使用平台的功能和服务。为了实现高可用性,平台通常会采取冗余和备份策略,例如使用负载均衡、多节点部署和数据备份等措施。当一个节点或组件发生故障时,其他节点或备份系统可以继续提供服务,从而保证平台的可用性。应具备高可用部署,支持两地三中心等部署模式;应支持多节点
99、同时提供服务能力;应支持在任一节点异常离线后,业务无缝切换,平台平稳运行,节点异常时使用者无感知;应支持网络 VIP 模式,保证 VIP 始终存在且可用;应支持在异常时,对 VIP 的 ping 检测不中断的能力;T/CESA BB012024 36 应支持多网卡、多服务、多 IP 场景的服务配置;应支持任一服务均可单独实现异常切换能力;应支持数据热备份能力。7.3 安全性 平台需要具备严密的安全机制和措施,以保护用户数据和系统资源免受未经授权的访问、恶意攻击和信息泄露等威胁。这包括加密通信、访问控制、漏洞修复和安全审计等安全措施,确保平台在安全性方面具备高度可靠性。应具备通过安全漏洞扫描能力
100、;应支持一键系统加固能力;应具备防火墙一键加固能力;应支持用户访问权限控制能力;应支持符合规定的数据传输加密方式。7.4 可伸缩性 平台应具备良好的可伸缩性,即能够根据用户需求的变化进行弹性扩展和收缩。当用户规模增长或负载增加时,平台应该能够自动或手动地扩展系统资源以满足需求,同时保持稳定的性能。反之,当用户规模减少时,平台应能够灵活地回收资源,以避免资源浪费。应支持热修改服务配置,改变服务器占用资源大小的能力;应支持热扩容能力;应支持减配能力。7.5 容灾备份 平台应具备容灾备份机制,以应对自然灾害、硬件故障或其他意外情况引发的系统中断。通过备份数据和部署冗余系统,可以在主系统故障时快速恢复
101、平台的运行。应支持定期自动数据备份能力;应支持节点间数据同步备份能力;应支持异常情况下数据恢复能力。OCTC BB012024 37 7.6 监控和故障排除 平台应提供实时监控和诊断功能,能够及时发现和处理潜在的故障和问题。通过监控系统状态、错误日志和性能指标等,可以进行故障排除和性能优化,提高平台的可靠性和稳定性。应支持平台服务自检测能力;应支持平台服务异常自修复能力;应支持平台服务高负载自优化能力。8 平台高性能 平台性能是一个平台在处理任务或运行应用程序时的效率和速度,这涉及到许多因素,包括硬件配置、网络带宽、数据处理能力、响应时间等。一个高性能的平台应该能够在处理大量数据、支持高并发用
102、户以及满足实时性要求的同时,保持稳定的运行状态。平台性能是实现兼容性、可靠性以及高性能的关键。在现代商业环境中,管理平台的性能是至关重要的。无论是对于大型企业还是小型企业,一个高性能的管理平台都可以带来许多优势。8.1 并发量 并发量是指系统在单位时间内同时处理的请求数量或操作数量,通常以每秒事务数(TPS)或每秒查询数(QPS)来衡量。并发量是衡量系统性能的重要指标之一,它直接反映了系统的负载能力和处理能力。应支持北向同时对接上层平台 10 个及以上;应支持同时扫描设备 10,000 台及以上;应支持同时监控设备 100,000 台及以上。8.2 响应时间 响应时间是指系统对请求响应所需要的
103、时间,通常被认为是衡量系统性能的一个重要指标。详细来说,响应时间包括了从客户端发送请求开始,到服务器端处理请求并返回结果,再到客户端接收到响应结果所需要的全部时间。应支持平均响应时间在 100ms 以内;应支持最大响应时间在 100ms 以内;T/CESA BB012024 38 应支持 90%响应时间在 50ms 以内;应支持最小响应时间在 10ms 以内。8.3 吞吐量 吞吐量是指网络、设备、端口或其他设施在单位时间内成功地传送数据的数量,通常以每秒比特数(bit/s)或每秒数据包数(p/s)来衡量。对于网络设备来说,吞吐量是指在没有帧丢失的情况下,设备能够接收并转发的最大数据速率。应支持
104、理论吞吐量为网络信道容量计算值;应支持可实现吞吐量达到理论吞吐量 80%;应支持聚合吞吐量达到网络速率理论值 80%;应支持系统吞吐量单位时间内数据传输成功率 99%;应支持峰值吞吐量达到理论吞吐量 90%。8.4 性能计数器 性能计数器(Performance Counter)是用于监控系统性能的一些指标,它们可以帮助管理员了解系统的运行状况,以便及时调整配置或进行性能优化。性能计数器通常包括处理器使用率、内存使用率、磁盘 I/O 等指标。应支持处理器平均使用率在 30%以内;应支持处理器峰值使用率在 75%以内;应支持内存平均使用率在 50%以内;应支持内存峰值使用率在 75%以内;应支持
105、磁盘使用率在 75%以内。9 总结 在数字化转型的浪潮下,数据中心扮演着关键的角色,随着数字化转型的推进,数据中心物理基础设施管理变得日益复杂。为了实现标准化管理,本方案提出了数据中心物理基础设施管理要求方案,包括资产管理、监控管理、自动化配置、能耗管理、拓扑管理、安全防范管理、统计管理、用户管理、平台兼容性、平台可靠性以及平台高性能等方面。此方案旨在满足数据中心的运维需求、降低运维成本,OCTC BB012024 39 提高效率和性能,并保障数据中心的稳定运行和安全性,从而确保数据中心具备有效支持数字化转型所需的先进技术。数据中心物理基础设施管理技术方案的提出对于推动数字化转型具有重要意义。
106、通过对数据中心的资源、性能、控制、智能等方面进行综合管理,数据中心可以更加高效地支持各类先进技术的应用和实施。这不仅提高了组织和企业的竞争力,降低了运营成本,还优化了用户体验,实现了数字化转型和可持续发展。同时,该方案还能够更好地满足不同行业客户的需求,推动数据中心物理基础设施管理技术的统一发展,进一步提升整体数据中心的运维水平。T/CESA BB012024 40 参 考 文 献 1 GB/T 377792019 数据中心能源管理体系实施指南 2 GB 501742017 数据中心设计规范 3 YD/T 27272014 互联网数据中心运维管理技术要求 4 YD/T 52352019 数据中心基础设施工程技术规范 5 中国信息通信研究院 数据中心白皮书(2022年)6 中国信息通信研究院云计算与大数据研究所 数据中心智能化运维发展研究报告(2023年)