《朱兆良-优化-阿里云服务器智能异常调度系统构建与实践.pdf》由会员分享,可在线阅读,更多相关《朱兆良-优化-阿里云服务器智能异常调度系统构建与实践.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、阿里云服务器智能异常调度系统构建与实践朱兆良 阿里云计算有限公司演讲嘉宾朱兆良阿里云计算有限公司 高级技术专家阿里云弹性计算平台异常调度AIOPS方向负责人。经历淘宝、阿里妈妈、对象存储、弹性计算多个子公司及部门,近8年的运维管控系统建设经验,主导建设存储运维管控系统赤骥,近年来专注弹性计算异常调度平台AIOPS方向,致力于通过AI的方式赋能并提升弹性计算稳定性、运维效率及智能运维能力。目 录CONTENTS1.AIOPS是必然选择2.智能异常调度系统介绍3.AIOPS在异常调度系统的实践4.感悟AIOPS是云计算发展的必然选择PART 01大规模系统的选择88可用区29数据中心区域3200+
2、网络和CDN节点5000+集群1,000,000+设备 100,000,000+部件(CPUs,disks etc.)复杂产品形态的选择g8 通用型X86计算c8 计算型r8 内存型g7 通用型c7 计算型r7 内存型sn2ne 通用网络增强sn1ne 计算网络增强se1ne 内存网络增强re7 内存增强hfc7 高主频计算型i4 本地SSD型d3大数据型hfg7 高主频通用型d2大数据型hfr7 高主频内存型d1ne大数据型i3 本地SSD型g8 通用型c8 计算型r8 内存型g6 通用型c6 计算型ARM计算gn7 GPUf5 FPGAgn6 GPUf3 FPGA异构计算EBM 弹性裸金属
3、(神龙)SCC 超级计算集群裸金属&高性能计算中小型数据库数据处理任务企业后台应用Web服务器;批量计算,分布式分析,高性能科学和工程类应用和平台;广告,游戏高性能数据库数据挖掘和分析Redis,Memcached内存型数据库关系型数据库;NoSQL数仓;内存型数据库Hadoop/Spark集群(实时)MapReduce分布式计算如Hadoop、Spark等;分布式文件系统;日志和数据处理基因组学研究;视频编解码、图像转码;金融分析深度学习;视频处理;图形可视化;科学计算高性能科学计算高性能前端机高性能数据库;高性能网站前端机;数据处理任务;企业后台应用;高性能计算、科学计算容器、微服务网站和
4、应用服务高性能计算基于CPU的机器学习高性能数据库客户稳定性及运维体验的选择可预测可控制可感知基本稳定可靠异常特征的训练和学习/不断迭代简单直接的可用判定全链路根因诊断异常感知客户自愈方案自动推荐监控报警 故障恢复 被动响应预测分析 故障规避 主动治理智能异常调度系统介绍PART 02系统架构全链路定界故障定界实时诊断客户诊断自诊断客户侧运维运维事件非预期事件异常运维运维平台日常运维故障概览故障快恢NC灰度灰度服务VM灰度vGamma环境POP接入层DUBBO事件中心跟因分析诊断服务健康检查Guest诊断异常运维运维服务日常运维故障恢复任务管理采集服务调度器主动上报周期采集跟因置信度分析算法引
5、擎运维规则分析异常检测日志聚类诊断&诊断规则分析诊断引擎特征计算异常分析多维关联A/B Test运维引擎统一流控运维编排工作流定义归并策略通知中心抑制策略通知策略渠道管理日志服务数仓&计算引擎实时数仓离线数仓MaxComputeBLINK/FLINK关键路径及概念log/runtimelog/runtime 采集服务或日志聚类metricmetric 专家规则及异常检测exceptionexception 维度关联featurefeature 规则引擎rulerule 运维引擎actionactionAIOPS在异常调度系统的实践PART 03智能诊断(指标异常检测)采集服务采集了大量的系统运
6、行时数据(每天800+TB的数据量,1000+的指标项)专家阈值设定判断异常无法跟随系统变化而变化,无法适配周期性数据突变+幅度指标特征趋势+速度跳变+时间网络SLS周期检测Robust PeriodODPS周期存储RDSFLINK时序数据分解 Robust STL趋势检测 Mann-Kendall突变检测 Cauchy Distribution导入实时消费存储关联产生存储虚拟化性能。当前实时检测序列超过5000W+条,预计9月底会达到破亿智能诊断(指标异常检测)智能诊断(日志聚类分析)异常特征检测:特征发生异常时(突变),底层逻辑变化或真实异常发生变化,需要人工处理新Pattern:当关键日