《虎牙-郑健彦-智能弹性在虎牙降本增效上的探索与实践.pdf》由会员分享,可在线阅读,更多相关《虎牙-郑健彦-智能弹性在虎牙降本增效上的探索与实践.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、智能弹性智能弹性在虎牙降本增效上的探索与实践在虎牙降本增效上的探索与实践郑健彦郑健彦 虎牙虎牙 AIOps leaderAIOps 郑健彦 HUYA 基础保障部 AIOps leader“2017年华南理工大学硕士毕业后,加入联想数据中心部门负责故障预测等工作。2019年加入虎牙直播,在质量,效率和成本三个方面落地AIOps。涉及异常检测,多维度根因定位,时序预测,智能弹性和大数据算力调度等相关工作。”讲师简介讲师简介目录目录-亮点介绍&案例背景-基于AI预测的日常弹性-业务容量模型-基于容量模型的赛事弹性-边缘算力智能弹性 什么是智能弹性 AI-HPA?科学计算一年流量最高的时刻需要准备的算
2、力资源 保证在线服务在7*24h下不过载 一键对所有服务预扩容到所需的容量亮点介绍亮点介绍案例背景案例背景 在直播场景下,流量呈单峰结构在直播场景下,流量呈单峰结构系统容量系统容量时间区域为算力冗余资源使用量 赛事赛事(游戏直播界的双十一)期间质量抖动(游戏直播界的双十一)期间质量抖动案例背景案例背景Kubernetes Kubernetes 中应用实例数设置的三种策略中应用实例数设置的三种策略利用率低周期偏移适应差配置繁琐健壮性差配置复杂基于基于AIAI预测的日常弹性预测的日常弹性(AI-HPA的常规模式)核心实践核心实践1-1-基于基于AIAI预测的日常弹性预测的日常弹性为什么需要预测?为
3、什么需要预测?标准的 HPA 是基于指标阈值进行伸缩的,常见的指标主要是 CPU、内存。但是基于指标的伸缩存在一定的时延,这个时延主要包含:采集时延+上报时延+伸缩时延。当负载的峰值毛刺非常尖锐时,可能会由于 HPA 的时延造成副本数目无法及时变化,短时间 内应用的整体负载飙高,响应时间变慢。核心实践核心实践1-1-基于基于AIAI预测的日常弹性预测的日常弹性IdeaIdea:系统在服务指标突增之前进行提前扩容:系统在服务指标突增之前进行提前扩容总体架构:总体架构:核心实践核心实践1-1-基于基于AIAI预测的日常弹性预测的日常弹性 服务的副本数计算公式服务的副本数计算公式 max(预测指标,
4、当前指标)扩容阈值?-扩容 max(预测指标,当前指标)缩容 通过训练和预测生成通过训练和预测生成“AI HPA定时伸缩配置定时伸缩配置”期望副本数=ceil 当前副本数?周期预测,当前指标 期望指标 核心实践核心实践1-1-基于基于AIAI预测的日常弹性预测的日常弹性预测算法:LightGBM支持分位数回归不用处理缺失方便利用特征工程做一些处理成本:每个分组“取数据+训练+预测“15s 完成典型服务预测准确率:90+%QuestionQuestion我理解AI-HPA相对于HPA解决了弹性扩容滞后的问题,是一种成本换质量的方法,如何能利用这个节省成本呢?核心实践核心实践1-1-基于基于AIA
5、I预测的日常弹性预测的日常弹性预测效果图预测效果图成果展示成果展示1 1 -基于基于AIAI预测的日常弹性预测的日常弹性减少频繁扩缩容避免副本数震荡开启弹性伸缩节省成本28%提前扩容提前扩容对周期性流量突增,在突增之前提前扩容避免监控数据出错造成的误缩容预测值和真实值相互兜底核时基线弹性核时收益收益业务容量模型业务容量模型保障服务在赛事期间的质量稳定核心实践核心实践2-2-业务容量模型业务容量模型赛事赛事-游戏直播界的游戏直播界的“双十一双十一”全球总决赛全球总决赛如何用最低的算力成本最低的算力成本保障赛事期间质量的稳定稳定?哪些应用是赛事PCU相关的?应用在特定的PCU下需要多少资源?核心实
6、践核心实践2-2-业务容量模型业务容量模型哪些应用是赛事哪些应用是赛事PCUPCU相关的?相关的?容量模型:PCUPCU与使用核数的关系与使用核数的关系 很多核心服务的峰值核数和峰值PCU的线性相关性很强 应用发版应用发版等可能会导致资源使用发生变化(如右图三)这意味着我们我们不能直接取长时间每天不能直接取长时间每天一个点的数据来回归一个点的数据来回归。一些应用每天的PCU峰值和使用核数峰值的散点图核心实践核心实践2-2-业务容量模型业务容量模型应用在特定的应用在特定的PCUPCU下需要多少资源?下需要多少资源?对总PCU做线性回归,但只考虑赛事那一段 可解释性:k 意味着每观众PCU需要多使