1、G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站百度智能网络监控与流量调度实践G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录目录背景介绍:外网连通性故障背景介绍:外网连通性故障1如何做到精准的外网故障发现如何做到精准的外网故障发现2基于远程探测的故障发现基于远程探测的故障发现2.1如何做到外网故障自动止损如何做到外网故障自动止损3智能流量异常检测智能流量异常检测2.2效果总结效果总结4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站典型外网网络架构运营商骨干网北京运营商
2、网络上海运营商网络百度华北IDCDNS百度华东IDCIP address AIP AIP BIP address B北京用户上海用户G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站机房接入点网络故障机房接入点网络故障运营商骨干网本地运营商网络百度上海IDCDNS百度南京IDCIP addressIP AIP B调度前调度后G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站运营商骨干网故障运营商骨干网本地运营商百度北京IDC百度上海IDC骨干网链路故障DNSIP address调度前调度后G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站分省运营
3、商网络故障另外的运营商网络电信骨干网上海电信南京电信IDC上海电信本地故障移动骨干网上海移动南京移动IDCDNSIP address调度前调度后G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站网络连通性故障分析平均每个季度发生次数平均每个季度发生次数平均持续时长平均持续时长机房接入点故障 30 times十分钟级运营商骨干网故障0 1 times小时级分省运营商网络故障 20 times十分钟级 30 min发生频率人工止损MTTRG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录目录背景介绍:外网连通性故障背景介绍:外网连通性故障1如何做到精准的外网故障
4、发现如何做到精准的外网故障发现2基于远程探测的故障发现基于远程探测的故障发现2.1如何做到外网故障自动止损如何做到外网故障自动止损3智能流量异常检测智能流量异常检测2.2效果总结效果总结4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站如何发现这些故障Province AProvince BDC ADC BP2P CDN hostsNetwork Monitoring SystemData receiveDetectionAlarm 监控需求 当前的网络故障发现 目标调度链路的网络状态 从全国各省份运营商探测点,发起对目标机房IP的探测请求G O P S 全 球 运 维 大
5、会 2 0 1 9 上 海 站 如图:某省份运营商的5个探测点对Y机房的5个IP单周期探测结果单个探测点或IP自身网络故障影响判定结果异常探测结果集中于探测点1探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5异常探测结果集中于IP1探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5异常探测结果分散局部异常链路整体异常G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站使用离散系数判定异常探测结果分布情况?离散系数=?
6、0标准差?f?均值 P探测点异常向量(n1,n2,n3,n4,n5)IP异常向量(m1,m2,m3,m4,m5)1.分别计算探测点异常向量、VIP异常向量2.计算探测点、VIP异常离散系数,如果其中有任一个离散系数大于阈值P,则认为该异常为局部异常图 探测点离散系数:1.731.73;IP离散系数:0.7图 探测点离散系数:0.7;IP离散系数:1.731.73图 探测点离散系数:0.7;IP离散系数:0.7局部异常异常探测结果集中于探测点1探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5异常探测结果集中于IP1探测点 1探测点 2探测点 3探测点 4探