《2019年智能化故障监控与预警播报.pdf》由会员分享,可在线阅读,更多相关《2019年智能化故障监控与预警播报.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、智能化故障监控与预警播报-VIPKID烽火台系统大米未来科技有限公司 基础架构部目录一、背景分析 VIPKID公司发展历程 VIPKID公司业务场景 VIPKID故障的背景 行业的解决方案 VIPKID公司故障遇到的问题 问题解决的难点四、智能化运维初涉告警智能化分析应用图谱智能告警设计三、烽火台系统的运营效果告警现状告警的问题烽火台预警播报烽火台预警播报设计流程风险播报的运营二、智能化故障监控解决方案故障监控解决方案实时发现持续的大颗粒告警升级故障规则训练快速解决故障自动自愈自动产生故障报告第一回背景分析011.1、VIPKID公司发展历程1.2、VIPKID公司业务场景1.3、VIPKID
2、故障的背景1.4、VIPKID公司故障遇到的问题1.5、问题解决的难点1.1、VIPKID公司发展历程2014201520162017201820192020用户万级用户10万级用户30万级多创新线声网上课用户60万同时上课2万覆盖国家80+aws/ali/ten云多链路服务商在线教室10000机器用户千级多贝pythonSpringmvc业务垂直springboot单体MySQL中间件全链路框架服务治理全球化服务深度研发课量多活多业务1.2、VIPKID公司业务场景跨全球:中、美、韩跨多云:AWS、阿里云、百度云、腾讯云高敏感:单用户级故障感知 vs 百分比级故障感知大规模:10000机器多
3、模式:一对一、一对多、大班课、公开课1.2、VIPKID公司业务场景课堂FMLPCCTMK客服学生家长教材老师ITTEST1.3、VIPKID故障的背景分类2016Q42017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q4合计故障统计A1.研发bug1212519139986102A2.研发可用性规范1213131618A3.中间件误用滥用113145318A4.中间件问题267462633A5.上线流程问题212322113A6.线上操作问题1321142418A7.系统运维12126A8.第三方问题21131324219A9.IT问题1414313
4、A10.安全问题123合计201034393421322429243故障监控诊断效率故障召回率48%63%故障发现时长5.8小时70分钟故障诊断时长1.5小时17分钟1.4、VIPKID公司故障遇到的问题服务商磁盘抖动受影响,8数据库唯一键/字段超长/迁移/SQL异常,12下游接口异常/超时,12服务治理接口限流,10服务商磁盘抖受影响,8ES瞬间流量大/查询参数/语句不规范,7参数不合法,4业务实现,4第三方,3上游,3ng,2VKSCHEDULE调度失败,2机柜宕机,2小班课集群写入异常,2并发,1后端上线时不平滑异常,1无数据异常,1云存储,1TOP类问题问题根因数量服务商网络问题/抖动
5、/CDN14数据库唯一键/字段超长/迁移/SQL异常12下游接口异常/超时12服务治理接口限流10磁盘抖动受影响8ES瞬间流量大/查询参数/语句不规范7参数不合法4业务实现4第三方3上游3nginx2VKSCHEDULE调度失败2服务商机柜宕机2小班课集群写入异常2并发1防骚扰1后端上线时不平滑异常1容器1数据异常1无发现异常reject1无数据异常1云存储11.5、问题解决的难点【端故障】性能 错误【网页故障】性能 错误【用户网络故障】大陆/香港/美国/加拿大09-04 14:37:00 加速问题09-09 09:04:00 第三方对象存储加速问题09-12 01:53:00 广州电信静态域
6、名对象:教师端/教室/家长/学生【办公区故障】08-31 15:51:00 dns故障09-01 00:32:00 短暂抖动09-03 20:08:38 dns劫持09-04 09:38:00 ping不通域名对象:Fireman/LP/CC/TMK/ITTest调用链故障 GC/API/JVM 调用来异常 NG故障 ELB故障ELBWAFNGJAVA全链路地图+Trace办公区地图+Trace【CDN故障】一对一/小班课/VK教室05-22 13:36:00 教师端CDN厂商回源故障07-24 16:11:00 短信接口被刷07-25 11:26:00 CDN问题08-16 19:31:00