《边雪冬-AIOps 驱动下的 TME 腾讯音乐智能运维新范式.pdf》由会员分享,可在线阅读,更多相关《边雪冬-AIOps 驱动下的 TME 腾讯音乐智能运维新范式.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:边雪冬01020301质量效率成本感知决策执行MTTFmTKECDB云原生观云数据TDWIaasCLBNoSql。SRE事件编排腾讯云资产编排容器编排作业编排MTBF混沌实验应急预案事件复盘改进调优容量评估变更管理护航巡检全联路压测MTTRMTTI故障发现监控告警用户反馈日常巡检异常检测MTTA故障响应OnCall人员互备ChatOps故障预案MTTL故障定位可观测事件管理DataOps根因分析MTTT故障解决故障自愈限流降级服务熔断操作事物MTTV故障验证业务验证用户反馈监控数据服务状态测试编译DevOps全量运营开发预发布灰度02OS/服务器数据层(Redis/Mysql)中间层(
2、SPP/SRF/going)WEB层(proxy/nginx)TGW/LVS自研服务自建网关Redis/MysqlIDC自建CDNGSLB客户端(用户端)LFPMF网络接入层:N:网络监控C:CDN监控D:数据层监控服务监控:Y:业务监控R:返回码监控S:测速系统A:自动化测试M:模块间调用C:组件监控基础监控:L:容量管理P:进程监控F:特性监控移动端监控:T:舆情监控K:卡慢监控D:多维监控NCNDAMMMRASDCYCYCYCLFFKT时间戳当前值相对参照值 相对倍数波动倍数调配参数下线调配参数上线折算值2025/06/26 8:02 99.90092 99.955370.03209-1
3、.69679-3-1302025/06/26 8:03 99.87273 99.955370.03209-2.57526-3-1302025/06/26 8:04 99.56220 99.955370.03209-12.2521-3-1312025/06/26 8:05 99.20713 99.955370.03209-23.31692-3-1322025/06/26 8:06 99.49442 99.955370.03209-14.36429-3-1322025/06/26 8:07 99.62342 99.955370.03209-10.34434-3-1312025/06/26 8:08
4、 99.83025 99.955370.03209-3.89903-3-1302025/06/26 8:09 99.92200 99.955370.03209-1.03989-3-1302025/06/26 8:10 99.92642 99.955370.03209-0.90215-3-1302025/06/26 8:11 99.91498 99.955370.03209-1.25865-3-1302025/06/26 8:12 99.91798 99.955370.03209-1.16516-3-1302025/06/26 8:13 99.55671 99.955370.03209-12.4
5、2318-3-1312025/06/26 8:14 99.15324 99.955370.03209-24.99626-3-1322025/06/26 8:15 99.60474 99.955370.03209-10.92646-3-131计算模型计算模型1.1.算样本平均值算样本平均值(同比、环比同比、环比)m=(1/n)*(a0+a1+.+an-1)2.2.算样本方差算样本方差sigma2sigma2sigma2=1/(n-1)*(a0-m)2+(a2-m)2+.+(an-1-m)23.3.把样本方差开平方得出样本标把样本方差开平方得出样本标准差准差sigmasigma值值样本标准差sig
6、ma值(即相对倍数)=样本方差开平方21折算值累计到达8触发告警|累计值小于3时,间隔2个正常点清空计数43累计值等于3时,间隔3个正常点清空计数|累计值大于等于4,小于6时,间隔3个正常点情况计数5同时会记录告警的开始时间,结束时间,告警时间点数,总异常时间点数,总记录数,告警次数,告警累计值|1 0 2 0 1 0 2 0 11 0 1 0 0 1 0 0 0 1 0 11 2 2 2 1 2 0 0 0 0 0 0 0 0 0 0123六月七月八月九月通知人告警数占比通知人告警数占比通知人告警数占比通知人告警数占比*340127.52%*107912.36%*3287.22%*2316.