《2019年腾讯游戏AIOps的落地实践.pdf》由会员分享,可在线阅读,更多相关《2019年腾讯游戏AIOps的落地实践.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站腾讯游戏 AIOps 的落地实践G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录个人简介1落地实践的目标和倚仗2技术运营落地实践之运维支持3技术运营落地实践之运营支持4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站自动化标准化推动发布、变更等自动化数据化数据化结合自动化深度助力运维能力升级技术运营能力升级全面助力业务价值提升02STEP03STEP04STEP腾讯游戏-技术运营标准化发布标准化、变更标准化、配置管理标准化、
2、监控标准化01STEPG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录个人简介1落地实践的目标和倚仗2技术运营落地实践之运维支持3技术运营落地实践之运营支持4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站落地实践的目标和倚仗腾讯游戏-海量业务G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站落地实践的目标和倚仗海量服务升级技术运营更多非传统运维分析场景需求需要支撑广泛支持(业务数*场景数*子任务数)目标G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站落地实践的目标和倚仗倚仗平台和工具运维数据平台应用SaaSGEM多米诺
3、骏鹰元数据管理数据标准化数据集市数据管道G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录个人简介1落地实践的目标和倚仗2技术运营落地实践之运维支持3技术运营落地实践之运营支持4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持1、如何在少消耗人力的情况下提供服务2、如何在恰当的条件下,合理组合配套能力G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持原始的告警数据故障分析/定位故障处理故障追踪1.如何把各系统的数据标准化2.方案能否覆盖各种曲线场景1.如何把有关系的告警/故障进行联动2.如
4、果快速准备的定位根因触发故障自愈或运维自定义作业等持续追踪故障恢复情况多米诺对故障处理的思考G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持API Gateway核心功能路由管理权限管理应用认证频率控制用户认证辅助功能SDKAPI文档日志记录管理系统API自助接入配置管理运行数据展示G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持多米诺数据及服务标准化标准化G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持多米诺AI告警覆盖的曲线范围时序波动曲线耗时监控曲线统计概率
5、曲线叠加平滑曲线G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持识别G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持识别G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持识别G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持多米诺故障联动告警关联告警发生输出结果联动定位以上联动的SaaS或系统包含以下数据:完成DB类,主机程序类,网络类,操作类,平台类,舆情,AMS类,安全类,支付,八爪鱼、GCloud等。告警发生基于来源于
6、不同SaaS的告警数据(GemAIops、TNM2、舆情等)告警关联使用业务模块拓扑关系图谱(简称小触手)将来源于不同SaaS或系统的告警进行关联联动定位基于联动定位核心算法,分析出各方告警直接的上下层关系给出最下层结果输出结果将上一步骤结果反馈至应用层以供使用G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持多米诺故障联动小触手逻辑调度标准化的告警数据关联结果桥梁函数关联G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营落地实践之运维支持多米诺根因定位关联因果分析根因定位数据挖掘中的关联