《2019年腾讯游戏营销智能监控实践.pdf》由会员分享,可在线阅读,更多相关《2019年腾讯游戏营销智能监控实践.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、游戏营销智能监控实践游戏营销智能监控实践腾讯游戏腾讯游戏游戏营销智能监控实践游戏营销智能监控实践监控系统演化监控系统设计监控系统与智能监控实践与负载保护研发组织变化研发组织变化研发运维研发运营研发devops/SRE运营支撑系统演进支撑系统演进运维工具发布.监控测试发布.监控测试智能以单机系统为主公共服务逐步分布式业务大量微服务化1:Script2:DataBase1:System2:Auto3:Big Data1:AI微服务哲学理解微服务哲学理解分治工业设计模具设计软件架构大系统小做微服务软件工程高内聚低耦合设计模式操作系统微内核(宏内核)Mach监控服务本身也是微服务1:锤子理论2:综合治
2、理监控未来之路监控未来之路工具化系统化专业化自动化智能化业务视角之监控业务视角之监控业务正常感觉不到监控系统存在业务异常直接给出处理方法 易接入(少阈值配置)低消耗(对系统影响小)易逻辑扩展 对业务量变化不敏感,易扩展 报警及时 报警易处理(一站式处理)易查询 一个不多 一个不少 无误报 精准干系人 准确根因,影响范围 故障恢复通知(精准范围)适当预测实现视角之监控系统实现视角之监控系统SolutionPredict,OptimizeProbe,Verify,Assess,Smart,Accurate,Auto,Chart,RecallSensitive,Simple,Robust,Scala
3、ble,Visual监控方法比较监控方法比较白盒方法白盒方法黑盒方法黑盒方法监控目标多,复杂,覆盖面广少,抽取关键点(监控)系统架构复杂(健壮/容灾/可扩展)(数据流)相对简单通用性与业务深度绑定易移植智能性依赖人对系统理解和案例整理对业务理解依赖少解释性容易确认根因不易解释,易骚扰反馈性易验证业务架构合理性可以对监控预测监控与人工智能监控与人工智能理论与应用监控白盒根因推理告警收敛级别升级阈值设置黑盒曲线检测旁路验证阈值学习人工智能白盒专家系统知识图谱语义网黑盒机器学习神经网络深度学习统计学习概率图聚类集成学习集成学习监控对象监控对象监控目标专有发货量业务容量变化量版本发布通用时延流量错误饱
4、和度网卡I/OMemoryCPU阈值临界点监控上报设计原则监控上报设计原则(平衡平衡/综合综合)分级原则 日志与异常数据分离 支持本地文件/TCP/UDP 支撑结构化和非结构化数据(数字上报)侵入式API和(统一)Agent合用 正常数据抽样和聚合业务监控常见定位问题方法常见定位问题方法收到报警查找日志定位原因拉群定位根因应该跟我没有关系,具体原因不清楚同上.1:依赖具体开发人员2:管中窥豹全链路自动定因全链路自动定因A12/56 A12/56 B12/56 B12/56 C12 C12 D12/56 D12/56 E12 E12 F12/56 F12/56 G12 G12 A12/56 A1
5、2/56 B12/56 B12/56 C12 C12 D12/56 D12/56 E12 E12 F12/56 F12/56 G12 G12 t tactactmodulemodule时间维度:查询历史类似报警以及原因活动维度:深度遍历调用链模块维度:广度遍历当前模块预处理:检测报警源IP地址结论:日志验证收敛性报警设计收敛性报警设计(分层分层)工单工单工单生成逻辑工单生成逻辑阈值类队列阈值类队列变化类队列变化类队列长期累积类长期累积类报警触发条件报警触发条件近期数据近期数据异常数据流异常数据流全量时序数据全量时序数据近期处理记录近期处理记录静态收敛规则静态收敛规则近期数据近期数据近期数据近期
6、数据升级升级历史特征历史特征报表报表自动结单 自动结单 一种常见监控架构一种常见监控架构数据清洗数据清洗异常数据/日志异常数据/日志ESES实时计算实时计算实时检测实时检测时序数据库时序数据库配置条件配置条件可视化可视化全量异常报警工单实时数据流全链路Topo可视化数据分层可视化报警可视化报警模版报警模版报警Title报警Title报警模块报警模块持续时间持续时间错误码错误码触发条件触发条件工单号工单号报警模块上报错误信息报警模块上报错误信息错误码历史与当前曲线图错误码历史与当前曲线图可能原因可能原因报警相关模块T