1、阿里云弹性计算稳定性建设和云上运维最佳实践李刚(东任)阿里巴巴 高级技术专家大纲大纲阿里云弹性计算概念阿里云弹性计算稳定性建设实践阿里云弹性计算云上运维最佳实践什么是阿里云弹性计算?什么是阿里云弹性计算?又名云服务器ECS(Elastic Compute Service)云计算最核心基础IaaS服务之一让大家像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩阿里云弹性计算稳定性建设实践阿里云弹性计算稳定性建设实践双轮驱动下的弹性计算极致稳定性诉求双轮驱动下的弹性计算极致稳定性诉求百万级外部客户百万级外部客户20192019阿里全面上云阿里全面上云对弹性计
2、算稳定性强依赖对弹性计算稳定性强依赖90%10%无开机自启动有开机自启动开机自启动开机自启动客户占比客户占比在线在线业务业务场景场景AIAI大模型离线场景大模型离线场景0.8%1.6%2.4%3.9%7.7%14.8%21.3%10203050100200300模型训练集群节点数训练集群日化故障率游戏游戏创业期业务创业期业务直播直播目标:用目标:用x86x86的硬件,提供小型机级别的稳定性的硬件,提供小型机级别的稳定性小型机小型机x86x86服务器服务器小型机小型机ECSECSx86x86服务器服务器现实现实10 x10 x目标目标X86X86ECSECS平台平台VMVM体感可用率体感可用率体
3、感可用率体感可用率挑战挑战:复杂度和规模复杂度和规模复杂度复杂度基础设施基础设施服务器服务器物理网络物理网络数据中心数据中心供应链供应链AliAli OSOSCIPUCIPU、块存储、块存储TDCTDC网络网络AVSAVS、管控运维、管控运维裸金属裸金属实例实例vmvm实例实例ECIECI实例实例k kvmvm/Near-Metal/Near-Metal HypervisorHypervisor轻量虚拟化沙箱轻量虚拟化沙箱存储存储(块存储块存储)虚拟网路虚拟网路(vpc)(vpc)镜像镜像/Guest/Guest OSOS AliyunAliyun linuxlinux80+80+可用区(AZ
4、)2 20+0+数据中心区域(Region)1000000+1000000+设备(Server)5000+5000+集群(Cluster)规模规模2023年4月识别问题:宕机、夯机、抖动识别问题:宕机、夯机、抖动现象:现象:ECS资源100%不可用,多数因基础设施、服务器硬件或底层软件原因导致。影响:影响:所有未持久化的数据和配置都将丢失,该ECS实例上的业务将完全中断。现象:现象:ECS资源服务时断时续,甚至某些核心功能不可用或无法连接和操作。如:OS 夯,IO hang等。影响:影响:未持久化数据尚未丢失,但整个ECS几乎无法使用,有时甚至无法恢复、没有备份的机会。现象:现象:ECS资源核
5、心服务可以正常使用,但在极端情况下会出现网络或性能抖动。影响:影响:着重影响抖动敏感用户,性能抖动可能导致用户压测等容量规划付之东流,甚至可能因抖动引发用户应用系统雪崩效应,导致整体业务中断。宕机宕机夯机夯机抖动抖动量化量化问题:从客户体感视角全面度量稳定性过程和结果问题:从客户体感视角全面度量稳定性过程和结果影响客户稳定性体感的技术指标影响客户稳定性体感的技术指标客客户户体体感感可可用用率率客户客户侧侧应用架构应用架构容错容灾能力容错容灾能力客户稳定性体感结果指标客户稳定性体感结果指标稳稳定定性性客客诉诉率率实例实例宕机宕机实例实例夯机夯机实例实例抖动抖动实例实例主动运维主动运维宕机率宕机率
6、夯机率夯机率有损率有损率GuestOSGuestOSpanicpanic 率率主动运维率主动运维率事件响应事件响应成功率成功率工单工单数量数量数量时长数量时长积分积分时长时长客情客情数量数量数量时长数量时长积分积分时长时长解决问题:弹性计算稳定性系统工程解决问题:弹性计算稳定性系统工程线下预防体系线下预防体系产品设计产品设计产品适配产品适配产品验收产品验收硬件准入标准硬件准入标准稳定性准入标准稳定性准入标准业务适配业务适配基础设施适配基础设施适配验收报告验收报告稳定性准出标准稳定性准出标准线上守护体系线上守护体系客户侧联动体系客户侧联动体系智智能能故故障障预预测测灰灰度度发发布布能能力力监监控