1、云服务器可观测能力的探索与实践姜文锋阿里巴巴高级技术专家Contents目录01可观测的价值02云服务器可观测解决方案03总结可观测的价值01云服务器可观测的价值云服务器可观测的价值提升确定性简化运维提升信息透明性通过工具让人清晰地看见实例运行的健康状态、帮助发现问题,从而降低经验门槛和不确定性、简化运维确定性地运行,提升用户的信心及时掌握云服务器客户OS内部以及底层的状态,避免黑盒方便掌握云服务器的运行细节,简化运维可观测性主要是指了解内部运行情况的能力阿里云的解决方案云服务器可观测整体解决方案宿主机Host OS应用进程客户 OS虚拟硬件阿里云平台实例计算虚拟化存储虚拟化网络虚拟化物理硬件
2、控制系统计算存储网络ECS实例&控制系统数据中台可观测相关产品数据清洗关联分析特征计算用户侧产品云监控系统事件健康诊断健康状态2800+2800+网络和CDN节点6 6大洲7878可用区(AZ)2424数据中心区域(Region)丰富的数据采集100,000,000采集单元100TB/D内部运维保障平台云监控-观测客户OS&应用指标云监控针对阿里云资源和互联网应用的监控报警服务产品优势天然集成天然集成云监控服务无需您购买和开通云监控服务无需您购买和开通数据可视化Dashboard提供丰富图表展现形式灵活报警灵活报警报警规则灵活可配,通知方式灵活多报警规则灵活可配,通知方式灵活多样样监控数据处理
3、对监控数据进行时间/空间维度聚合处理丰富的主机监控项CPU空闲率占用率iowait等内存总量使用率空闲率等LOAD 1-5-15磁盘剩余空间IOPS等单位时间收发包数量TCP各种状态占比等进程是否存活进程资源消耗ECS系统事件-主动上报底层运维事件ECS系统事件阿里云主动上报云服务器状态变化或底层异常,并给出运维建议简化运维简化运维EventEvent-DrivenDriven 提升系统效率提升系统效率提升确定性提升确定性ECS系统事件的价值宿主机硬件+HostOS计算存储网络计算/存储/网络虚拟化ECSECSECSECS事件服务调度计算节点控制系统计费系统异常收集特征分析预测/决策事件上报/
4、数据采集控制流运维平台实例运行时事件上报运维事件(预期/非预期)/安全事件上报云监控OpenAPI控制台事件中心事件推送事件查询短信/邮件/站内信钉钉运维编排(OOS)消息服务日志服务函数计算事件查询消息通知消息通知事件通知自动运维逻辑数据采集自动处理ECS系统事件对严重事件配置事件通知事件触发自定义函数实现自动化处理管控API或执行Shell脚本调用ECS管控API或执行Shell脚本对运维事件编排运维模版ECS系统事件自动化运维最佳实践系统事件云监控运维编排函数计算方案一方案二ECS系统事件运维事件非预期运维事件(Exception)计划内运维事件(Maintenance)实例或其设备因底
5、层错误造成功能/性能受损实例或其设备底层计划内/提前预测到的运维动作实例运行事件安全事件实例或其设备符合产品规则的状态变化提醒实例受到网络攻击如DDosECS系统事件分类诊断实例健康诊断实例健康状态网络连通诊断对实例的软硬件问题全面分析并给出针对性建议主动监测影响实例运行的关键指标网络通信异常快速定界ECS系统事件无法覆盖诸如客户OS内各种异常以及云平台更细粒度的问题实例健康诊断-从底层到客户OS全面体检实例健康诊断项客户OS资源使用率网络配置磁盘设置阿里云平台计算服务(虚拟化)存储服务网络服务系统文件内存设置重要服务/进程远程登录/防火墙费用相关安全控制实例健康诊断针对云服务器客户OS和阿里
6、云平台软硬件问题全面检测的服务宿主机硬件+HostOS计算存储网络计算/存储/网络虚拟化健康诊断服务调度计算节点ECS控制系统计费系统数据清洗关联分析特征计算数据采集控制流运维平台安全控制相关诊断阿里云平台相关诊断OpenAPI控制台诊断服务发起诊断发起诊断云助手ECSECSECS云助手云助手数据采集客户O S诊断需用户授权数据采集经用户授权在客户OS内运行诊断脚本共7大类40余项云平台共5大类30余项实例健康诊断典型用法使用定时运维功能,周期调用健康诊断服务建议通过Tag管理资源ECS 健康诊断报告人工处理自动化