1、网络设备监控中的陷阱及解法夜莺SNMP监控最佳实践大纲1网络设备可观测性4Categraf 采集 SNMP 最佳实践2网络设备指标监控3网络设备 SNMP 采集陷阱网络设备可观测性#01网络设备可观测性指标(Metrics)和日志(Log)网络设备指标 通过 SNMP 和遥测(Telemetry)收集 反映设备性能、状态和资源使用情况 常见指标:CPU 使用率、内存使用率、网络接口流量、错误率等网络设备日志 记录设备运行过程中的事件和操作 帮助检测和诊断问题、追踪设备活动 常通过 Syslog 协议进行采集和传输网络设备可观测性#02网络设备指标监控背景和架构网络设备监控背景 网络设备领域还是
2、以 Zabbix 为主,Prometheus 体系弱势 内部统一监控告警平台都是基于 Prometheus 体系 网络设备厂商封闭,还不够拥抱开源网络设备指标采集协议网络设备指标采集器网络设备监控架构l 采集器:Categraf 中的 SNMP 插件l 远程写:夜莺l 时序库:VictoriaMetricsl 可视化:Grafana夜莺最新版本可直接集成 Grafana,实现了直接在夜莺中管理。网络设备可观测性#03网络设备采集陷阱SNMP设备网络设备可视化网络设备可视化常见陷阱01 MIB文件解析程序模式选择 gosmi+path netsnmp+PATH常见陷阱01l path:mib 文
3、件路径l transtator:gosmil 位置:内置库,系统无需做其他操作l mib:放入全部的mib即可path+gosmi 模式强烈推荐常见陷阱01l PATH:mib 文件路径设置为环境变量l transtator:netsnmpl 位置:外置库,系统需要安装 netsnmpl mib:放入全部的mib即可PATH+netsnmp 模式兼容性更强常见陷阱01常见陷阱02 MIB 引入依赖文件缺失 MIB 文件格式错误常见陷阱02 建立对应文件夹管理不同品牌的MIB文件,私有MIB库和公有MIB库分开管理常见陷阱03 指标数据只采集数值,不采集字符串,标签维持稳态结构 合理规划标签和指
4、标,避免浮点数陷阱常见陷阱03 Gauge、Counter、Integer 可直接作为指标值和标签采集 String 只可作为标签采集常见陷阱04 performing bulk walk request timeout after 3 retries常见陷阱04 GetNext 一次请求单个回复 GetBulk 一次请求批量回复常见陷阱04常见陷阱04 Max PDU size Max repetitions网络设备可观测性#04采集SNMP最佳实践使用Categraf下SNMP插件网络架构网络层开启 SNMP Agent采集层可选择 Categraf、SNMP Exporter、Teleg
5、raf等存储层可选择VictoriaMetrics、Prometheus、InfluxDB等可视化可选择夜莺和Grafana,结合自身开发的前端大屏告警层可选择夜莺告警、或者Grafana告警、或者其他自研的告警平台等最佳实践品牌品牌设备类型设备类型目录目录华三交换机/路由器/防火墙/无线/opt/categraf/mibs/h3c/华为交换机/路由器/防火墙/无线/opt/categraf/mibs/huawei/思科交换机/路由器/防火墙/无线/opt/categraf/mibs/cisco/公共MIB公共依赖MIB/opt/categraf/mibs/public/MIB库文件准备并上传
6、到对应品牌管理目录中最佳实践品牌品牌网络网络Layer角色角色配置文件配置文件华三核心交换机snmp_h3c_switch_core.toml华三汇聚接入无线snmp_h3c_wireless_access.toml华三出口防火墙snmp_h3c_firewall_egress.toml华为核心交换机snmp_huawei_switch_core.toml华为汇聚接入无线snmp_huawei_wireless_access.toml华为出口防火墙snmp_h3c_firew