《李弘博-OS2ATC_TencentOS服务器QoS技术的演进 李弘博.pdf》由会员分享,可在线阅读,更多相关《李弘博-OS2ATC_TencentOS服务器QoS技术的演进 李弘博.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、腾讯 TencentOS团队 李弘博TencentOS 服务器QoS技术的演进1背景:降低运营成本如意3433754084454835250100200300400500600202020212022202320242025中国x86服务器出货量(万台)服务器,69%存储设备,6%网络设备,11%安全设备,9%其他,5%IDC设备成本分布全球服务器CPU平均利用率只有6%-12%,严重浪费。-Gartner统计保守估算:1台服务器成本:5万元CPU利用率:15%提升到30%1万台机器节约成本:5亿2CPU:35%内存:9%网络:5%磁盘:5%转码单一业务部署面临特定资源瓶颈CPU:15%内存:
2、56%网络:20%磁盘:75%数据库如意在离线混部在线业务:延时敏感。搜索、支付。离线业务:延时不敏感。AI训练、转码、大数据分析。在离线业务混部服务器A在线业务服务器B离线业务服务器C混部通过资源(容器)隔离,在不影响在线业务服务质量的前提下,尽可能的混部业务提升服务器资源使用率。干扰率、抖动、延迟监控、统计Trace工具降低业务运营成本负载越高,收益越大Cgroup隔离Cpu qosIo qos网络qos内存qos技术手段前提目标资源竞争,互相干扰通过业务混部提升服务器资源利用率3第一代QoS技术如意K8S集群错峰部署+cgroup隔离K8S:分时错峰运行04:0012:0020:0004
3、:00在线离线08:0016:0000:00秒级延迟,处理滞后高优容器的空闲资源无法充分利用挑业务,分时特征明显,容易预测的业务。对延迟不太敏感的业务。上限比较低,cpu使用率一般压到50%以下,粗粒度的混部。上报数据调度决策下发执行节点调整处理完毕压力突发探测上报冲突处理路径长,耗时高,异常节点无法在第一时间得到调整,在线受影响.压力突发处理完毕秒级延迟在线离线空闲资源请求资源资源预分配:空闲资源无法利用4如意第二代QoS技术CPU离线调度类离线负载均衡超线程隔离离线压制水位线IOIOPS限速读写统一限速按权重隔离动态回写抑制网络入、出带宽限速带宽抢占端口白名单整机限速内存高低优预留Page
4、cache隔离按优先级OOM容器级异步回收统计信息QoS指标硬件指标ebpf工具集容器调度资源预测干扰检测应用画像作业筛选资源监控冲突处理配置接口TencentOS 如意其他干扰:网络、IO、内存的离线干扰主要干扰:CPU离线干扰挑战一:降低CPU层面的干扰挑战二:网络、内存、IO层面的干扰Caelus、CraneCaelus、Crane:数平、基架、CSIG:作业调度、干扰检测、冲突处理作业调度QoS指标5如意6挑战一:降低CPU维度的干扰Core 0Core 1Cpu 0Cpu 1Cpu 2Cpu 3Node 0Node 1Numa干扰Cpuset 绑核核间干扰核内干扰单CPU干扰单CPU
5、内的干扰(软件干扰):内核调度延迟:在线、离线进程同时位于run queue中,如果CFS选择离线进程,导致在线进程被延迟调度软件干扰CPU干扰硬件干扰核内的干扰(硬件干扰):离线进程会冲掉在线进程的L2 cache核间的干扰(硬件干扰):负载均衡:在线进程被CFS调度器在cpu间调度。导致cache miss增加。一个socket内的cpu共享L3 cache主要干扰如意如何解决CPU调度延迟stop_sched_classdl_sched_classrt_sched_classfair_sched_class在线&离线idle_sched_class主要问题:都是一种比例控制的机制,“量”
6、上的补偿,无法直接影响调度延迟 对cfs调度器代码入侵大,同一棵红黑树上,有一定性能损耗 受限于vruntime,非绝对抢占,干扰率5%在线A离线B资源倾斜4261357vruntime最小(实际运行时间、权重)方案一:Cgroup ACgroup BShares 1024Shares 2048period:100msCgroup A:quota 40ms方案二:period:100msperiod:100msquota 40msquota 40ms方案三(cfs burst