1、传统架构云架构去IOE/X86/分布式/虚拟化/容器化去IOE/X86/分布式/虚拟化/容器化IT架构的变化IT架构的变化正在发生正在发生02自动化程度低,靠人工投入改善MTTR03毫无智能化功能04监控系统主要依赖“小数据”,作用有限01不满足基于云架构的大规模集群的管理需求传统IT运维管理系统传统ITOM已经落后于新需求传统ITOM已经落后于新需求05封闭系统,可控性极差监控系统现状管理复杂管理复杂数据孤岛数据孤岛覆盖不全覆盖不全价值埋没价值埋没?系统繁多系统繁多不够智能不够智能?缺乏新架构经验缺乏新架构经验架构重构呼吁新ITOM架构重构呼吁新ITOM统一统一云架构让统一监控成为可能从应用
2、到硬件完整完整统一监控让大数据成为可能从硬件到应用的完整大数据从部件到整机的完整大数据智能智能大数据让人工智能成为可能故障预测-容量预测-流量预测-业务异常闭环闭环大数据让服务自动闭环成为可能故障报警-定位-自动治愈 新监控需要基于云架构,支持大规模集群弹性伸缩 新监控需要基于云架构,支持大规模集群弹性伸缩 新监控需要作为核心引擎,拉通和接管管理系统和控制系统中的自动化职能 新监控需要作为核心引擎,拉通和接管管理系统和控制系统中的自动化职能 新监控需要作为企业IT大数据的采集源头,衍生智能运维的各项场景 新监控需要作为企业IT大数据的采集源头,衍生智能运维的各项场景新监控将成为新ITOM的核心
3、拉通监管控的隔阂,赋予监控新价值AI-Monitor/AIOps市场趋势AI-Monitor/AIOps市场趋势AIOps定义AIOps定义:AIOps平台是一套软件系统,整合了大数据和AI人工智能或机器学习功能,用于增强和部分替代大范围的IT运维流程和任务,包括可用性、性能监控、事件关联和分析,IT服务管理和自动化。纵横打通的“统一”监控纵横打通的“统一”监控纵向打通横向打通资产数据性能数据故障数据配置数据覆盖全面的“完整“监控覆盖全面的“完整“监控服务器监控数据全集IPMILinkedSee灵犀数据采集项确定可以抓取的7项;有些厂商支持有些不支持的21项;确定不可以抓取的81项确定可以抓取
4、109项除了IPMI,通过smbios,cpu原生接口,硬盘/raid原生接口和sysfs抓取每一项数据都是曾经出现过的疑难杂症每一项数据都是曾经出现过的疑难杂症衍生功能支持基本的整机层故障监控和报警1,更细粒度的硬件监控:CPU,硬盘更多数据2,更好的故障报警:分级,压缩去重,在线值班3,额外的可选价值:资产管理,到货验收,健康评级4,真正的智能功能:故障预测,智能修复,智能节能磁盘为例服务器磁盘设备文件缺失Critical服务器磁盘设备文件缺失,可能由于设备正在使用中被移除,以及磁盘物理故障引起,建议查看磁盘进行确认或重启系统服务器磁盘不可访问Critical服务器磁盘不可访问或访问报错,
5、可能由于磁盘物理故障及连接不良引起,建议查看磁盘进行确认服务器磁盘设备文件漂移Warning服务器磁盘设备文件发生漂移和变迁,可能由于设备正在使用中被移除及重新使用引起,建议查看磁盘进行确认及进行在线修复服务器磁盘SMART属性错误Critical服务器硬盘SMART属性超过自身阈值,可能由于磁盘老化或者机房环境不良导致,建议更换磁盘服务器磁盘硬件错误Critical服务器磁盘硬件错误,可能由于磁头组件、马达主轴、电子电路或伺服系统损坏导致,建议更换磁盘服务器磁盘存在已报错故障扇区 Warning服务器磁盘存在已报错故障扇区,可能由于数据、标志信息、校验码、地址信息等故障导致,建议查看磁盘进行
6、确认及进行在线修复服务器磁盘存在潜在故障扇区Warning服务器磁盘存在潜在故障扇区,可能由于数据、标志信息、校验码、地址信息等故障导致,建议查看磁盘进行确认及进行在线修复服务器磁盘已报错故障扇区过多 Critical服务器磁盘出现大量的故障扇区,无法进行修复,建议更换磁盘服务器磁盘大量报错Warning服务器磁盘大量异常报错,无法使用,建议更换磁盘数据完整特性”服务器数据采集项”数据完整特性”服务器数据采集项”发现问题发现问题除抖分级压缩去重智能发送故障定位故障修复事件闭环解决问题的“后服务“能力解决问题的“后服务“能力解决问题解决问题知识沉淀监控贯穿