《湖北农信 陈胜:智能算法的统一运维监控管理平台.pdf》由会员分享,可在线阅读,更多相关《湖北农信 陈胜:智能算法的统一运维监控管理平台.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、基于智能算法的统一运维监控管理平台助力湖北农信高效、智能、全面运维管理湖北省农村信用社联合社陈胜目录C O N T E N T01项目概述0203建设内容项目成效项目背景平台架构创新特点智能运维场景项目价值总体收益项目目标银行核心业务系统包括账务核心、手机银行/网银、支付、信贷管理系统等,它们采用不同的技术架构(包括传统架构与云计算、微服务架构)和多种操作系统、数据库及中间件,相互关联且交互频繁,运维管理难度极大。日常运营产生海量的运维数据,包括交易日志、系统日志、网络流量数据、用户行为数据等,数据格式多样且增长迅速。传统的数据处理方式难以满足实时分析和深度挖掘的需求,导致潜在问题难以及时发现
2、。为保障业务正常运行,银行投入大量人力、物力进行运维,但传统运维模式主要依赖人工操作,随着业务竞争加剧,银行需要在保障服务质量的前提下,优化运维流程,降低运维成本。业务系统复杂性与多样性数据量与处理难度剧增运维效率与成本平衡难题监管机构对银行强监管,对系统稳定性、数据安全性等方面有极高要求。任何系统故障或安全漏洞都可能引发严重后果,如客户信息泄露、交易中断等,因此运维管理需确保系统始终符合监管标准,有效防控风险。监管要求与风险防控压力项目背景现状与挑战现状与挑战运维响应滞后当前运维依赖人力,缺乏有效的系统化、智能化的手段,应急响应时间长监控工具滞后现有监控工具老旧、出现告警不准、不及时现象日志
3、分散日志海量且分散,缺乏统一标准,无法实现日志上下游串联分析,未能产生有效价值互联网业务回迁手机银行/网银,聚合支付等业务从农信银回迁,对系统运维和网络安全提出了更高要求技术架构更加复杂云计算、分布式和微服务架构,让应用架构更加复杂信创的不确定性信创环境、信创软硬件的陆续使用,给运维带来了更多的不确定性项目目标故 障 预 防故 障 发 现故 障 定 位故 障 恢 复复 盘 改 进MTTR平均故障恢复时间MTBFMTBF平均故障间隔时间平均故障间隔时间M T T I平均故障发现时间M T T K平均故障定位时间M T T F平均故障修复时间M T T V平均故障修复验证时间监 控&告 警智能异常
4、检测日 志 分 析故障定位全链路追踪应 急 预 案巡检策 略 推 荐分 析 报 告快速发现:发现的快-从单一告警到立体化故障发现;发现的全-单源发现到联动发现精准定位:定位的准-从多平台切换到统一发现;定位的全-排障路径全覆盖高效恢复:恢复的效-自动处置和分派以数据为基础,以算法为支撑,以场景为导向实现运维闭环管理资源全面监控实现对云上云下所有硬件设备、软件系统和网络环境的实时监控。统一日志管理对全行日志进行统一采集、处理、存储与查询分析,结合日志模式识别与日志异常检测等算法实现日志智能化管理。全面应用调用链分析通过应用调用链分析,深入了解各个服务和组件间的交互,及时发现问题。集中告警管理统一
5、接入与处理多源告警消息,利用算法实现告警事件收敛、降噪、异常检测和根因分析,实现事件全生命周期全局管控。智能数据分析利用智能算法自动分析海量监控数据,快速准确地识别故障和异常,减少人工监控带来的疏漏与误判,提高监控的准确性和效率。通过日志串联分析,实现对故障点的上下游关系的快速识别,缩短故障排查时间快速故障定位建设目标0 10 20 30 40 50 6目录C O N T E N T01项目概述0203建设内容项目成效项目背景平台架构创新特点智能运维场景项目价值总体收益项目目标运维应用可视化展示立体化监控日志管理采集用户体验网络服务节点系统云平台业务应用运维中台采控中心 低代码平台运维数据平台
6、CMDB算法中心场 景智能运维一体化平台最佳实践和方案论运维指标体系管理运维数据治理报告报表智能运维成熟度模型三方数据源传统/分布式架构应用云原生/微服务架构应用基于追踪开放标准的应用(OpenTracing等)基础设施:私有云/混合云/虚拟化/超融合/X86物理机/小机行内应用配置数据事件指标追踪日志全链路业务追踪基于日志模式识别的异常检测闭环故障分析与处置用户体验与应用性能管理基于指标体系的应用健康度评估事件管理运维流程管理配置管理基于智能算法的统一运维监控管理平台架构创新特点:一个门户、千人千面统一运维门户:整合基础设施监控、日志分析管理、应用链路分析、事件中心、算法中心等功能,实现跨系