《云计算开源产业联盟:2018企业级AIOps实施建议白皮书(43页).pdf》由会员分享,可在线阅读,更多相关《云计算开源产业联盟:2018企业级AIOps实施建议白皮书(43页).pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、企业级 AIOps 实施建议白皮书 1 copyrightGREATOPS 高效运维社区 企业级 AIOps 实施建议白皮书 发起单位:高效运维社区 AIOps 标准工作组 指导单位:数据中心联盟 云计算开源产业联盟 发布时间:2018 年 4 月 13 日 发布版本:V0.6 开源协议:CC BY-NC-ND 3.0 版权说明:所有对本文图文的引用,请注明 来自企业级 AIOps 实施建议白皮书 By 高效运维社区、AIOps 标准工作组 企业级 AIOps 实施建议白皮书 2 copyrightGREATOPS 高效运维社区 目录 背景介绍 4 组织单位 4 编写成员 5 发起人 5 顾问
2、 5 编审成员 5 本版本核心编写成员 6 1、整体介绍 8 2、AIOps 目标 10 3、AIOps 能力框架 11 4、AIOps 平台能力体系 14 5、 AIOps 团队角色 17 5.1 运维工程师 17 5.2 运维开发工程师 17 5.3 运维 AI 工程师 17 6、AIOps 常见应用场景 19 6.1 效率提升方向 21 6.1.1 智能变更 22 6.1.2 智能问答 22 6.1.3 智能决策 23 6.1.4 容量预测 23 6.2 质量保障方向 24 6.2.1 异常检测 24 6.2.2 故障诊断 25 6.2.3 故障预测 25 6.2.4 故障自愈 26 6
3、.3 成本管理方向 26 6.3.1 成本优化 26 企业级 AIOps 实施建议白皮书 3 copyrightGREATOPS 高效运维社区 6.3.2 资源优化 27 6.3.3 容量规划 28 6.3.4 性能优化 28 7、AIOps 实施及关键技术 29 7.1 数据采集 29 7.2 数据处理 30 7.3 数据存储 30 7.4 离线和在线计算 30 7.5 面向 AIOps 的算法技术 30 说明: 31 附录:案例 33 案例 1:海量时间序列异常检测的技术方案 33 1、案例陈述 33 2、海量时间序列异常检测的常见问题与解决方案 33 3、总结 34 案例 2:金融场景下
4、的根源告警分析 35 1、案例概述 35 2、根源告警分析处理流程 35 3、根源告警分析处理方法 37 4、总结 39 案例 3:单机房故障自愈压缩 40 1、案例概述 40 2、单机房故障止损流程 40 3、单机房故障自愈的常见问题和解决方案 41 4、单机房故障自愈的架构 43 5、总结 44 企业级 AIOps 实施建议白皮书 4 copyrightGREATOPS 高效运维社区 背景介绍 背景介绍 AIOps 即智能运维,其目标是,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低 IT 成本,
5、并提高企业的产品竞争力。 Gartner 在 2016 年时便提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会达到 50%。AIOps 目前在国内外领先的互联网企业开始被逐渐应用,也是近年来国内外被普遍看好的新技术。 为了让国内众多互联网中小企业、特别是传统企业可以共享、复用国内外顶尖互联网的AIOps 技术和能力,并能够更快捷的进行 AIOps 相关产品选型,因此开展国内外第一个 AIOps 白皮书及相关标准制定工作。 AIOps 标准将分成两大类,分别适用于企业内部的 AIOps 能力建设与评估、及企业购置相关 AIOps 产品的认证评估,使得 AI 真正落地应
6、用于运维,造福于企业。 此白皮书由高效运维社区牵头,为 AIOps 标准工作组成员及所属企业的相关经验汇总。 组织单位 组织单位 AIOps 白皮书及标准由云计算开源产业联盟(英文译名: Open Source Cloud Alliance for industry ,缩写为:OSCAR)下设 AIOps 标准工作组、数据中心联盟(DCA)下设组织IT 运维委员会(即开放运维联盟)及高效运维社区联合发起制定,对外以 AIOps 标准工作组开展工作,由萧田国担任组长。 OSCAR 联盟和 DCA 均为中国信息通信研究院牵头、国内相关企事业单位共同发起、在中国通信标准化协会(CCSA)的指导下成立