辛文-降本增效利器:快手 CPU&GPU超大规模在离线混部落地实践.pdf

编号:177498 PDF 35页 7.70MB 下载积分:VIP专享
下载报告请您先登录!

辛文-降本增效利器:快手 CPU&GPU超大规模在离线混部落地实践.pdf

1、降本增效利器:快手 CPU&GPU 超大规模在离线混部落地实践快手/容器云技术中心/辛文背景与趋势1 背景与挑战2 利用提升最佳实践CPU混部篇3 利用率提升最佳实践GPU混部篇4 未来规划及展望目录页Contents在离线混部架构搭建CPU在离线混部 CPU潮汐混部计量计费2019202020192020GPU虚拟化与GPU混部AI训练与潮汐混部隔离能力提升20212021 20222022扩量与精细化快手混部生态发展历程快手混部生态发展历程资源合池多场景统一调度全局弹性能力扩量服务画像及AI资源预测20232023 后续后续全局资源效率混部生态启动 快速发展的业务:给资源供给带来了挑战 服

2、务应用数量众多类型多种多样升级变更频繁资源潮汐化IDC数目众多峰值资源短缺在离线分离快速增长的业务与资源成本控制间的矛盾日益突出主机主机资源交付压力某在线业务三天使用率示意图利用率指标离线离线+非实时作业非实时作业资源利用率较低时延敏感资源需求点全天持续需求大小块资源较可利用“潮汐”特征明显 需要足够buffer 资源套餐固定稳定性要求具备容错特性允许重试时延、饱和度、错误率重试成本高,用户侧有感资源利用率高实时性要求较低在线服务在线服务 流量波峰波谷 SLO保障冗余 用户估计误差 突发增长需求CPUCPU业务背景与趋势业务背景与趋势IDC数量众多峰值资源短缺资源交付压力算力需求多样化服务量动

3、态增长服务量动态增长微服务改造、长尾增多实时流量潮汐实时流量潮汐实例负载及规模快速变化资源池共享资源池共享推理/训练/近线多场景混合提升GPU资源效率卡类型多样卡类型多样GPU硬件多年持续迭代平台系统损耗平台系统损耗故障及主机异构的调度损耗资源弹性需求资源弹性需求单卡、多卡、多机多卡场景GPUGPU业务背景与趋势业务背景与趋势GPU算力强需求云原生化多业务场景与GPUGPU应用应用已深刻影响各类业务(搜广推、音视频、MMU、风控等)场景快手内部GPU在线服务及离线训练任务均完成云原生云原生化迁移成本问题逐步凸显成本问题逐步凸显GPU卡规模十万量级多种主流GPU卡型号数万台GPU主机&十万量级G

4、PU卡GPU服务 数千量级在线服务(推理等)、AI训练任务及近线服务(特征提取等)多样化场景运行效率在线服务GPU峰均差值约30PP训练类算力全天需求旺盛峰均差值核心优化目标:CPU&GPU资源利用率提升图:快手内部某服务GPU使用率趋势背景与趋势1 背景与挑战2 利用提升最佳实践CPU混部篇3 利用率提升最佳实践GPU混部篇4 未来规划及展望目录页ContentsMapReduceSpark定时任务质检、报表等高容错应用转码类通用业务短任务 大数据离线服务与作业离线作业编排在离线容器编排应用编排Job编排动态超售服务画像跨集群调度负载调度弹性扩缩容Operator定制大数据引擎MR/SPar

5、kFlink容器容器网络隔离增强分布式 存储KATArbd/nbd kwaistoreHDFS集群管理层在线容器集群主机部署服务器纳管基础服务混用集群备机池及测试机公司统一基础设施业务存量物理机容器集群物理机公有云主机备机及测试机统一资源层(容器+存储)资源成本分帐帐单管理资源审计离线资源监控机房带宽监测资源贡献接入审计系统自动化运维如何落地系统能力如何落地系统能力资源类型资源类型特点简介特点简介QOS适配业务适配业务Mid 供给资源量基于服务画像及AI资源预测模型,能够实现天级别的资源供给保障。适用于对资源驱逐比较友好的在线业务以及一些运行时间要求比较长的近线任务。LS、BE Flink 近

6、线任务 离线基线类服务Batch 基于Mid资源超发后的再次超发,资源供给存在一定波动性,但整体退避率控制在一定sla范围内。适用于短作业或者对失败重跑有一定要求的中低优作业。BE 离线批处理任务 高优音视频异步转码任务 gpu混部任务Free 基于单机的利用率水位,资源供给无法提供较高保障,同时存在一定程度压缩和退避的概率。适用于对延时不敏感,同时具备恢复重跑能力的低优作业。BE 低优音视频异步转码任务 测试任务扩展资源类型扩展资源类型4种资源类型种资源类型 复用原生K8S资源类型 新增三种混部资源更灵活的更灵活的QOS等级等级 在线:LSE、LSR、LS 混部:LS、BECPU毫秒量级采集

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(辛文-降本增效利器:快手 CPU&GPU超大规模在离线混部落地实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠