14-高效 AI 基础设施:业务灵活弹性 + 云端 GPU 瞬时供应 -Wei JiangYuan Mo.pdf

编号:621009 PDF 25页 2.17MB 下载积分:VIP专享
下载报告请您先登录!

14-高效 AI 基础设施:业务灵活弹性 + 云端 GPU 瞬时供应 -Wei JiangYuan Mo.pdf

1、高效AI基础设施:业务灵活弹性+云端GPU即时供应莫源/阿里云&姜伟/CloudPilot AI目录业界挑战01架构&实现03解决方案02Content总结04Q&A05业界挑战Part 01业界挑战成本高资源确定性差业务/节点弹性不足启动速度受限云上GPU费用较高,如,AWS us-east-1 T4的花费高达$383.98/月。传统集群伸缩关键时刻可能无法弹性足够的计算资源,导致无法处理业务突发峰值。无法及时根据业务需求扩缩容导致资源的浪费/不足。GPU业务通常镜像或所需运行文件巨大,导致启动速度较慢。解决方案Part 02解决方案业务弹性伸缩KServe配置简单,根据业务的请求并发量弹性

2、业务,确保高效响应。节点弹性伸缩Karpenter 提供节点资源弹性,最大化资源利用率,多实例类型选择提升资源供给确定性,同时支持Spot实例以降低成本。数据读取加速利用Fluid的分布式缓存,高性能读取业务初始化文件。镜像加速利用云厂商/开源的延迟加载技术(如AWS SOCI,nydus等),极速启动大镜像业务。-如AWS T4,相比按量,Spot实例能节省70%,其他云厂商类似。-GPU 业务通常涉及特定的容器镜像和模型参数,例如运行大模型时需要使用vLLM 镜像和 DeepSeek 模型参数文件。-根据统计显示,在镜像启动的时候,平均只有 6.4%的数据被真正使用到。-Spot 实例是未

3、被使用的资源,价格低至 On-Demand 实例的 20-30%,但是存在随时被中断的风险.-Spot 价格和中断率查询工具:Spot Insights https:/spot.cloudpilot.ai/解决方案1934.5/月按量1272.0/月包月406.6/月竞价(spot)ecs.r6.2xlarge数据来源:-https:/spot.cloudpilot.ai/alibabacloud?instance=ecs.r6.2xlarge#region=cn-beijing-https:/ A106958.7/月按量4575.6/月包月2436.0/月竞价(spot)架构&实现Part

4、03总体架构KServe介绍KServe是一个开源的云原生模型服务平台,旨在简化在K8s上部署和运行机器学习模型的过程。支持多种推理框架如Pytorch、TF、XGBoost、HF弹性扩容能力灰度发布统一数据面APIGithub 地址:https:/ Service负责数据的Pre/Post处理Predictor Service负责提供推理服务。本次分享主要使用此ServiceStorage Initializer负责加载应用所需的数据/模型。目前支持S3、GCS、Azure云盘、HTTP/HTTPS网页链接及PVCKServe介绍KServe 通过InferenceService CR 即可

5、快速配置服务,拉起服务和弹性服务。Karpenter介绍Karpenter 架构图智能资源匹配如 Pod 需要 GPU 资源,Karpenter 自动弹性 GPU 实例。无需节点组直接根据集群需求创建节点。专为 Kubernetes 设计自动管理集群的节点扩缩容。灵活选型可自动选择最适合的实例类型和规格。Karpenter介绍NodePool 关键特性l 用于管理节点(Node)配置的一种Karpenter 资源。l 声明式定义:设定节点的硬件规格、容量等参数。l 精细化控制:支持标签、污点等配置。l 自动化管理:优化节点创建与生命周期管理。Karpenter介绍NodeClass 关键特性l

6、 用于定义节点(Node)启动配置的一种资源类型。l 声明式管理:设定 AMI 镜像、磁盘挂载、标签等属性。l 灵活配置:支持启动参数等多维度配置。Karpenter介绍Binpack最大化节点利用率,尽可能将 Pod 填充到较少的节点上Rightsizing为 Pod 选择最合适的实例类型,避免资源过剩或不足-通过多节点整合(binpacking)和单节点替换,实现更低的成本和更高的资源利用率。Karpenter介绍-不同云厂商中断通知时间节点不一样,AWS中断提前2min通知,阿里云提前5min通知。Cloud

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(14-高效 AI 基础设施:业务灵活弹性 + 云端 GPU 瞬时供应 -Wei JiangYuan Mo.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠