《4-童琳-云网络监控和故障定界.pdf》由会员分享,可在线阅读,更多相关《4-童琳-云网络监控和故障定界.pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、云网络监控和故障定界2023 深圳站童琳深入研究网络技术领域10余年,具有丰富的互联网软件架构设计和研发经验、精通SRE流程体系。目前就职于华为云,曾主导并落地华为云网络监控和自动化体系平台,持续保障云网络的稳定可靠,当前主攻SRE运维领域智能化场景专家系统。华为云SRE高级专家、运维产品专家。嘉宾照片2023 深圳站目录CONTENTS云网络监控和定界的挑战01 业界网络监控和诊断技术洞察02 华为云网络监控技术分享03 华为云故障诊断技术分享04 未来展望05 2023 深圳站应用网络形态的多样化对监控挑战巨大云上应用多样化,对网络质量的差异性诉求不同云网络故障一旦发生影响面大,要求监控必
2、须能极快的感知故障无处不在的网络互联,需要确保监控无盲点监控应用1s、设备控制100ms,实时游戏和语音10ms网络作为连接管道,要求监控必须实时感知异常,支撑快速恢复企业-云、多云、边缘等全场景互联要求监控的全面覆盖精准快速全面2023 深圳站云网络架构的复杂度让定界难度急剧上升技术挑战:云外网络特点:运营商侧黑盒不可见,监控手段缺乏云外用户位置分布广,难以精细化定界云内网络特点:多租共享、流量流向复杂,路径长软件类型多、版本迭代更新快云上应用特点:自身定界手段缺乏,无法自证清白典型问题案例:VPC内2台VM互访时延增到XXms!某外部用户访问云上ELB应用出现丢包!DCS访问延时变大,网络
3、是否有异常!XX客户反馈部分游戏用户掉线!PC端/手机端/企业IDCLeaf路由器SpineService LeafLB硬件/软件网关Internet/DCI/专线VPC1VPC1VPC2VPC1Vrouter、NAT、EPFWServer2023 深圳站目录CONTENTS云网络监控和定界的挑战01 业界网络监控和诊断技术洞察02 华为云网络监控技术分享03 华为云故障诊断技术分享04 未来展望05 2023 深圳站业界经典网络监控和诊断技术介绍流量镜像主动采集、周期性轮询为主,涵盖物理网元、虚拟化网元、集群和实例指标等;基于交换机软件会话流统计,用于流量成分分析场景,例如TOPN大象流/计
4、费等;NetpoirotTrumpet主机流分析基于主机TCP流特征分析,通过注入故障结合机器学习形成故障模型基线;基于主机的可灵活编程的流事件监测平台,每台主机需要占用一个核;全流分析FET利用交换机可编程芯片的强大计算能力,对网络全流进行异常检测,例如FET;vTrace基于OVS带内测量,对于丢包场景能快速分析全链路中问题节点及其根因;经典方法日志监控用于提前发现已知的设备硬件、软件、协议故障,以及公共DNS、APIG等日志指标;指标采集sflowNetstream基于交换机专有硬件芯片进行包采样统计,消除了物理设备CPU和内存的负担;主动拨测Pingmesh广域网拨测Netbounce
5、r主动拨测来覆盖DCN网络链路,利用拓扑关系来生成覆盖策略并辅助定界;例如博睿/听云,通过大量全球分布探针来进行拨测点覆盖,支持多种客户端类型;使用IP-in-IP指定路径进行黑盒拨测,能实现精确路径级监控;混合测量无法感知时延白盒存在监控盲点部署策略复杂额外流量开销难以定位故障采样无法捕获瞬时事件仅能发现TCP通讯异常对网元能力要求较高性能开销非常高需要硬件支持EverFlow通过镜像TCP控制报文、dscp抽样染色报文来实现网网络监控和诊断;不足2023 深圳站数据中心pingmesh黑盒监控 总体方案:通过TCP/Http模拟报文整网检测-整网时延和丢包分析;分层探测减少任务规模;关键技
6、术:“差异化PingList确定”、“pingmesh性能损耗控制”“TCP/Http模拟报文替代Ping报文”、“利用SYN/ACK时延推导丢包率”竞争力:支持数据中心的自证清白和一定的网络问题定界(无法确定具体是哪一跳出现问题)Agent安全原则:内存超出停止;探测频率硬编码控制;agent心跳失联停止;上报重试多次后丢弃结果;详细延时数据落地本地日志;探测规模:每天产生2000亿次探测、24TB的数据;2023 深圳站主机流异常检测Netpoirot不同类型故障对于TCP协议的行为有不一样的表现TCP协议行为相关性指标故障行为训练故障注入12345故障模式学习Agent5推断故障类型VM
7、客户端故障服务端故障网络故障CPU高IO慢内存不足掉线带宽限制零星丢包高延时报文乱序flow数量最大拥塞窗口并发链接占比关闭链接占比重复ACK数量三重ACK数量超时报文数0窗口探测时间RST报文数TCP发送字节数TCP接收字节数拥塞窗口时长最大拥塞窗口接收窗口变化应用发送字节数应用接收字节数发送和接收字节占比重传超时重传快速重传SACKD-SACK滑动窗口累计应答窗口耗尽流量控制和OS缓冲区关系窗口关闭糊涂窗口拥塞控制慢启动拥塞发生拥塞避免快恢复TCP协议行为发送窗口接收窗口2023 深圳站被动探测:灵活的探测规则实现多协议、全流覆盖(1)匹配TCP控制报文来覆盖小流(2)支持标记数据包持续跟
8、踪特定流持续(3)支持协议报文匹配主动探测:利用交换机解封装能力精确测量和复现问题(1)观察交换机是否丢包,以及丢包的五元组;模拟相同五元组,以交换机LOOPBACK IP封装进行持续发送报文验证是否短暂问题(2)观察链路时延;使用IP多层头部封装控制路径使用错误校验和确保应用无影响经过S1 2次来精确测量链路往返延时(3)对于封装报文基于内部头HASH到同一台分析器;混合测量Everflow关键技术覆盖场景场景解决方案:1)时延:触发主动探测双向延时,避免被动NTP时钟的不一致问题;2)丢包:基于报文丢包和重传现象来识别静默丢包:发现丢包后基于源主动拨测来诊断特定流丢包点位置;黑洞丢包:SY
9、N数据包在路径上某个节点消失推断丢包位置;服务器丢包:报文染色后统计所有报文成功到达最后一跳TOR;3)环路:检测同一个数据包TTL不断降低变为0;4)负载不均衡:可统计链路流条数(而不是流大小)来判断;2023 深圳站混合测量vTrace方案介绍VFD转发模型创建任务染色转发采集分析6元组+节点ID+丢包原因6元组+数量丢包根因深度检查出入端口转发状态检查技术原理:(1)首节点染色、中间节点统计、尾节点还原;(2)快慢路径分离:探测首报文进入慢路径,可匹配NAT/DNAT、安全策略、配置错误等导致的丢包原因;(3)路径节点规则预置,加速匹配性能;路径重组:(1)基于6元组(五元组+vni)来
10、识别唯一任务,每个染色报文附加唯一ID;(2)Log记录头尾和出入信息、并记录NAT转换关系;根因分析:400+代码钩子函数,大部分在慢路径中,支持安全组、路由配置等问题定位;2023 深圳站主机全流监控Trumpet方案介绍全流检测关键技术应用场景系统特点:自定义网络事件规则,通过控制器下发给物理机实时监测;检测间隔最小10ms,单机支持4K条规则;事件规则包过滤器表达式通配符、范围、前缀聚合函数(max/avg/sun/stddev等)、统计维度(flow_granularity)、统计周期122阶段后匹配方法,线速处理性能第一阶段逐包进行流统计维度的存储,几乎不影响转发性能;第二阶段在配
11、置的统计周期内(10ms)运行触发器来上报事件(为了避免触发器扫描过程较长导致统计数据丢失,使用奇偶时间窗口双缓冲区来进行交错式统计);安全性设计:流变化Dos场景下,过滤小阈值流量的流识别某网段突发流量dstIP=10.0.128.0/24,sum(volume)125KB,5-tuples,10ms检测指定流中的突发性丢包(辅助主机流量调度)srcIP=10.0.128.0/24,sum(is_lost&is_burst)10%,5-tuples,10ms 流量峰值检测(访问目标/24集群的流量阈值检测)(dstIP=10.0.128.0/24 and dstPort=80),sum(vo
12、lume)100MB,dstIP/24,10msVM集群可达性检测(丢包100%的IP对)(srcIP=10.0.128.0/24 and dstIP=10.20.93.0/24),sum(is_lost)100,(srcIPand dstIP),10ms租户流量行为分析(迁移前是否有20G的/24网段流量互访)srcIP=10.0.128.0/20,sum(volume)10GB,(dstIP/24 and srcIP/24),1s TCP流拥塞检测Protocol=TCP,1-(ack-ack_lastepoch+dup)/(seq_lastepoch-ack_lastepoch)0.5,
13、5-tuples,10ms检测指标volumerwndttlrttis_lostis_burstlasted_ackmax_seqdup volecn2023 深圳站小结:网络监控&诊断技术成熟度对比网络故障现象监控手段日志监控Metric监控主动拨测流量镜像主机流分析混合测量全流分析节点网络中断(已知故障场景)(流量跌0)节点持续丢包(容量/攻击场景)(容量超限)(带宽、TOPN流)节点持续丢包(未知场景)(流量突降)(路径交叉定界)(丢包程度)(逐跳定界)节点持续时延增大(路径交叉定界)(逐跳定界)单流持续丢包(依赖抽样精度)单流持续时延增大(依赖抽样精度)节点偶发性丢包/时延增大(依赖频
14、率)(依赖阈值)(依赖抽样精度)单流偶发性丢包/时延增大(依赖阈值)(依赖抽样精度)定界成熟度支持根因定位部分指标可定界结合算法定界部分支持定界部分支持定界支持节点级定界支持定界监控复杂度:日志白盒主动拨测流量镜像主机流分析混合测量全流分析资源消耗:日志主动拨测白盒流量镜像主机流分析混合测量全流分析定界复杂度:日志全流分析混合测量白盒主动拨测主机流分析流量镜像高成本低成本故障根因多种多样:网关过载、硬件/协议/链路故障、单板软失效、芯片软失效、流量突发、配置错误、变更故障、软件BUG等。但从应用感知层面的现象来看,故障现象可以枚举,主要体现在不同程度的网络中断、丢包、延时变大等网络质量劣化方面
15、;支持部分支持不支持2023 深圳站目录CONTENTS云网络监控和定界的挑战01 业界网络监控和诊断技术洞察02 华为云网络监控技术分享03 华为云故障诊断技术分享04 未来展望05 2023 深圳站华为云网络监控能力分层体系实例资源物理网络虚拟化网络硬件层应用交换机/路由器/FW/安全设备硬件负载/状态硬件亚健康OVS指标ELB/Vroute/XXX集群负载、流量和状态VM状态链路丢包/延时协议状态微突发/拥塞带宽连通性流表波分设备实例级Bps/pps、丢包、错误、新建/并发链接、连通性、时延物理线路单板/光模块DCN网络DCI网络运营商网络时延&抖动ELB、NAT、EP、CC、VPC、E
16、IP、VPC实例、DNS域名ELB、NAT、Vrouter、XGW、EP、BR集群、专线网关主机流监控服务实例监控集群/节点监控虚拟化网络黑盒监控DCN黑盒监控Internet黑盒监控网流分析Telemetry秒级监控物理拓扑波分异常芯片软失效应用APP、用户访问APP的链路容量/带宽2023 深圳站TelemetrySNMPTelemetry秒级监控,快速发现微突发高效数据采集基于GRPC主动准实时推送,支持毫秒级上报频率丰富数据类型多维度数据采集,补充传统SNMP不足实时状态呈现核心指标秒级可视,助力网络突发问题分析和判断硬件/网元统一指标采集标准,支撑快速扩展流计算处理OLAP分析插件上
17、报、kafka上报2023 深圳站网流分析实现运维/运营流量成份可视场景3:流量账单、微突发分析、运营流量成分分析等等流量组成、实时TOPNDCN-ADCN-BDCI网络ISP网络应用流量分布、实时TOPN专线成本结算VPCVM过载分析Internet流量分析:基于Region、设备、接口、协议、ISP、EIP、会话、AS、IP网段、IP国家、省份、城市等多维聚合、TOPN、趋势图实时分析;DCI流量分析:基于协议、线路、设备、服务、IP、方向等多维度进行TOPN、聚合、趋势图等组合实时分析;DCN流量分析:基于Region、设备、接口、协议、网段、会话、端口等多维度聚合、TOPN、趋势图实时
18、分析;VPC流量分析:基于VM粒度、虚拟网关实例等粒度,快速进行数据面过在源分析,找到流量突发源头;场景1:公网流量关联IP属性,快速识别DDos攻击流量源场景2:交换机流量实时在线查询,快速识别大象流2023 深圳站Internet黑盒监控华为云Region其他站点城域网A省IDC汇聚城域网BIDC1IDC2ISP骨干网PC用户DCI拨测专线拨测ISP骨干网拨测Wifi用户接入网络华为骨干网规格类型规格数量部署探针数X000+探针,支持vm/容器/物理机拨测任务实时性10wqps拨测任务规模X000w+拨测频率X00亿/h拨测覆盖国家XXX+客户IDC机房CDN机房用户端主动拨测多点部署,实
19、现Internet骨干链路全面覆盖2023 深圳站DCN黑盒监控1POD01POD02TOR-01TOR-02Region-ARegion-BAGGCOREringping拨测(TOR内)POD内TOR间拨测POD间fullmesh拨测Region间fullmesh拨测分层任务模型,减少任务量 任务自动生成:基于三层、二层拓扑自动生成全量探测任务;业务全覆盖:以计算、存储、OM等重点业务平面为主,单独生成分层任务;物理机适配:兼容不同主机平台、OS、硬件形态、同时考虑多网卡适配;物理层+业务层全场景覆盖面向网络设计分层的黑盒探测方案2023 深圳站DCN黑盒监控2网络拓扑信息任务调度模块全网主
20、机探针异常检测模块任务算法中心全网拓扑自动采集tor1tor2tor4tor3tor5svrsvrsvr分层探针满足分散、冗余原则机架1机架2TOR间探测示意图arm fullmesh探测约束出度探测基于度数任务量约束设计ECMP多路径覆盖ICMP任务数链路数*8扩展性:基于网络拓扑结构+插件热插拔的扩展系统架构任务覆盖策略:冗余&分散原则、安全约束、多路径覆盖路径覆盖统计探测路径规划任务压缩合并增量任务更新Traceroute路径计算2023 深圳站虚拟化网络黑盒监控基于租户层视角的黑盒监控,测量结果更真实,虚拟网关节点全覆盖AZ1Region-ARegion-BPOD01POD02POD0
21、3vm1vm2vm3vm5vm4网络区NATELBVPCEPVroute AZ2vm7vm8subnet1subnet2最少资源原则:尽可能少的VM和网络资源(EIP/ELB/NAT实例)来实现全覆盖;分散原则:资源规划(VM和IP等)需要尽量分散、确保覆盖不同区域;完备性原则:覆盖的流量场景必须住够完备,网关/集群覆盖无盲区;规格约束:100+场景、XXw+任务、1s探测频率、10s上报周期、支持主流网络协议;2023 深圳站网关集群/节点/服务实例指标秒级监控云网络资源对象统一建模;实例资源变化秒级感知;集群指标&趋势图拓扑关系节点指标实例指标趋分析网段聚合流量核心指标1s粒度数千领域模型
22、和指标,最高1s粒度监控基于领域模型的监控视角(1)云服务模型(层级关系)组件集群节点实例(2)拓扑关系模型(3)配置模型(4)流量路径模型2023 深圳站时序指标异常检测框架通过三级漏斗模型快速过滤掉非异常曲线,解决了异常检测时效性和准确性均衡问题 离线部分:利用长时间数据+标注的有监督+在离线结合的强化学习结构 在线部分:第一级:百万级KPI,利用R空间、zscore、3sigma统计算法,将没有发生较大变化的曲线过滤掉,只留下具有可疑变化的曲线第二级:万级KPI,使用prophet、动态双基线预测模型,发现可疑KPI第三级:百级KPI,复杂有监督模型结合历史趋势/经验,精确识别异常。R空
23、间Z-score3-sigma离线结合的强化学习模型分类2023 深圳站动态双基线异常检测算法算法原理:使用预测算法根据近期数据计算出当前时刻的预测值,再结合近期数据的变化特征、波动特征等指定出动态变化的两条边界;使用离线数据训练得到的长周期特征进行可疑异常的过滤,最终产生正确的告警;算法优势:支持节假日数据适配:使用近期数据对当前点进行预测,能够快速学习到这种大的数据变化;支持概念漂移和波峰移动适配;减少预测的滞后性:引入趋势拟合算法,采用小窗口内的数据学习曲线近期的趋势变化;2023 深圳站日志异常检测算法基于关键字、日志相关性、动态基线相结合的异常日志挖掘正则Regex匹配告警抑制频率告
24、警普通关键字无法满足的,复杂规则匹配;支持多字段组合的正则匹配;过滤掉部分的瞬发告警;如果设定为N分钟内发生M次,那么告警至少延迟N分钟;避免瞬发异常引入不必要的误告,对不持续的告警进行过滤;支持每个日志告警定义恢复条件,M5分钟内满足恢复条件的,不告警;动态基线告警策略设备&网关日志信息Listener(Logstash)+Online StructuringLog WarehouseSyslog Anomalies DetectionAlertsW/B ListRegex matchkafka(1)基线计算,按照N分钟窗口统计n-sigma分位数;(2)基线缓存reids,N分钟检测一次,
25、按照M分钟抑制;相关性收敛基于历史日志数据挖掘日志衍生关系,进行告警收敛;2023 深圳站目录CONTENTS云网络监控和定界的挑战01 业界网络监控和诊断技术洞察02 华为云网络监控技术分享03 华为云故障诊断技术分享04 未来展望05 2023 深圳站华为云网络诊断能力分层体系实例资源物理网络虚拟化网络硬件层应用交换机/路由器/FW/安全设备硬件负载/状态硬件亚健康OVS指标ELB/Vroute/XXX集群负载、流量和状态VM状态链路丢包/延时协议状态微突发/拥塞带宽连通性流表波分设备实例级Bps/pps、丢包、错误、新建/并发链接、连通性、时延物理线路单板/光模块DCN网络DCI网络运营
26、商网络时延&抖动ELB、NAT、EP、CC、VPC、EIP、VPC实例、DNS域名ELB、NAT、Vrouter、XGW、EP、BR集群、专线网关流拔测定界Internet故障定界黑盒故障定界物理拓扑波分异常芯片软失效应用APP、用户访问APP的链路容量/带宽全链路诊断&故障自愈应用自助诊断2023 深圳站Internet站点级故障自动定界精细化探针部署和探测策略,支撑出入云快速定界HBNISP网络华东RegionXX RegionXX RegionXX城市电信主探测路径(1)备份探测路径(2)路径1 异常路径2异常路径1&路径2丢包率一致入云故障出入云故障出云故障YYYNN故障边界定界逻辑地
27、理纬度信息大洲国家省/州城市运营商维度信息ISPPrefix路径信息出云aspatch入云as信息扩维2023 深圳站基于黑盒监控多维矩阵的告警根因定界张量分解:帮助分析张量在不同维度上的异常情况收益:分析张量对应网络的整体通信质量(质量检测)、分析张量对应网络问题所在的维度(问题定位)基于省份、城市、ISP、机房等多维度独立矩阵运算,基于异常分数打分,形成最优告警压缩结果;每天X000+拨测告警 每天快速定界单台XX节点转发性能异常DCS时延突增告警-快速分析出XX节点upcall冲高根因导致2023 深圳站故障自愈平台支撑确定性故障恢复时长故障自愈全流程可视诊断分析引擎决策恢复引擎资源配置
28、、服务属性数据故障领域工具市场运营子系统诊断工具集恢复工具集故障决策恢复调度故障预案库故障定界故障模式库诊断策略库影响面分析诊断过程可视决策过程可视恢复过程可视影响面分析监控、告警数据汇聚指标、状态数据对象、属性和关系数据12345运营看板服务器故障堆叠故障过载故障硬件亚健康安全攻击支持场景2023 深圳站网关节点故障自愈案例(1)网关数据面过载关键在于过载的精准溯源能力、过载场景分类(2)节点故障自愈基于明确的告警特征,触发自愈操作带宽过载(内网攻击)计算实例UDP增量流量TOP1计算实例的VM TOPN流过载行为分类决策逻辑限制TOP XXVMBps绝对水位实例溯源VM溯源大象流 or 老
29、鼠流网关实例拉黑流量下跌告警判断突降范围软硬件告警确定告警服务器管理IP优先隔离服务器查询上联交换机端口确定告警服务器管理IP确认是否黑盒告警相交交换机端口隔离隔离失败分析实例TOPN流量大象流老鼠流过载识别过载抑制抖动去噪自愈决策防呆保护措施:过载场景:白名单控制、限速范围控制、底线阈值保护、自愈静默保护、实例数保护;节点场景:容量保护、集群保护、主备判定、配置检查;2023 深圳站目录CONTENTS云网络监控和定界的挑战01 业界网络监控和诊断技术洞察02 华为云网络监控技术分享03 华为云故障诊断技术分享04 未来展望05 2023 深圳站华为云网络运维能力演进策略智能决策引擎经验驱动
30、-AI驱动智能决策/自学习优化意图编排引擎Network as code理念意图驱动变更监控告警引擎可用性监控-体验感知秒级发现、分钟级诊断网络大脑决策调度BI分析网络自动化平台交付/变更编排/Nac网络监控平台白盒/黑盒告警/诊断秒级感知统一控制网络数字孪生配置/模型仿真/验证网络孪生引擎统一配置/数据模型涵盖控制面/数据面1234正向反馈负向控制感谢聆听CSDN全球最大的中文开发者社区平台CSDN全球最大的中文开发者社区平台CSDN创立于1999年全球编程类网站排名第7(来源:Similarweb 2023.04)注册用户超过4300万,覆盖90%的中文开发者新媒体矩阵粉丝数量超过3100万超过1000家企业客户和合作伙伴目前公司员工近800名,分布在北京、长沙、上海、深圳、杭州、成都等城市,并在美国硅谷常设办事处旗下品牌旗下品牌专业中文IT技术社区:CSDN.NET多媒体专业出版:新程序员开发者专属移动APP:CSDN APP代码托管协作平台:GitCode代码工具协同平台:InsCodeIT人力资源服务:科锐福克斯丨八爪网络高校IT技术学习成长平台:高校俱乐部