14-高效 AI 基础设施：业务灵活弹性 + 云端 GPU 瞬时供应 -Wei JiangYuan Mo.pdf-在线下载-三个皮匠报告

1、高效AI基础设施：业务灵活弹性+云端GPU即时供应莫源/阿里云&姜伟/CloudPilot AI目录业界挑战01架构&实现03解决方案02Content总结04Q&A05业界挑战Part 01业界挑战成本高资源确定性差业务/节点弹性不足启动速度受限云上GPU费用较高，如，AWS us-east-1 T4的花费高达$383.98/月。传统集群伸缩关键时刻可能无法弹性足够的计算资源，导致无法处理业务突发峰值。无法及时根据业务需求扩缩容导致资源的浪费/不足。GPU业务通常镜像或所需运行文件巨大，导致启动速度较慢。解决方案Part 02解决方案业务弹性伸缩KServe配置简单，根据业务的请求并发量弹性

2、业务，确保高效响应。节点弹性伸缩Karpenter 提供节点资源弹性，最大化资源利用率，多实例类型选择提升资源供给确定性，同时支持Spot实例以降低成本。数据读取加速利用Fluid的分布式缓存，高性能读取业务初始化文件。镜像加速利用云厂商/开源的延迟加载技术（如AWS SOCI，nydus等），极速启动大镜像业务。-如AWS T4,相比按量，Spot实例能节省70%，其他云厂商类似。-GPU 业务通常涉及特定的容器镜像和模型参数，例如运行大模型时需要使用vLLM 镜像和 DeepSeek 模型参数文件。-根据统计显示，在镜像启动的时候，平均只有 6.4%的数据被真正使用到。-Spot 实例是未

3、被使用的资源，价格低至 On-Demand 实例的 20-30%，但是存在随时被中断的风险.-Spot 价格和中断率查询工具:Spot Insights https:/spot.cloudpilot.ai/解决方案1934.5/月按量1272.0/月包月406.6/月竞价(spot)ecs.r6.2xlarge数据来源：-https:/spot.cloudpilot.ai/alibabacloud?instance=ecs.r6.2xlarge#region=cn-beijing-https:/ A106958.7/月按量4575.6/月包月2436.0/月竞价(spot)架构&实现Part

4、03总体架构KServe介绍KServe是一个开源的云原生模型服务平台，旨在简化在K8s上部署和运行机器学习模型的过程。支持多种推理框架如Pytorch、TF、XGBoost、HF弹性扩容能力灰度发布统一数据面APIGithub 地址：https:/ Service负责数据的Pre/Post处理Predictor Service负责提供推理服务。本次分享主要使用此ServiceStorage Initializer负责加载应用所需的数据/模型。目前支持S3、GCS、Azure云盘、HTTP/HTTPS网页链接及PVCKServe介绍KServe 通过InferenceService CR 即可

5、快速配置服务，拉起服务和弹性服务。Karpenter介绍Karpenter 架构图智能资源匹配如 Pod 需要 GPU 资源，Karpenter 自动弹性 GPU 实例。无需节点组直接根据集群需求创建节点。专为 Kubernetes 设计自动管理集群的节点扩缩容。灵活选型可自动选择最适合的实例类型和规格。Karpenter介绍NodePool 关键特性l 用于管理节点(Node)配置的一种Karpenter 资源。l 声明式定义：设定节点的硬件规格、容量等参数。l 精细化控制：支持标签、污点等配置。l 自动化管理：优化节点创建与生命周期管理。Karpenter介绍NodeClass 关键特性l

6、用于定义节点(Node)启动配置的一种资源类型。l 声明式管理：设定 AMI 镜像、磁盘挂载、标签等属性。l 灵活配置：支持启动参数等多维度配置。Karpenter介绍Binpack最大化节点利用率，尽可能将 Pod 填充到较少的节点上Rightsizing为 Pod 选择最合适的实例类型，避免资源过剩或不足-通过多节点整合(binpacking)和单节点替换，实现更低的成本和更高的资源利用率。Karpenter介绍-不同云厂商中断通知时间节点不一样，AWS中断提前2min通知，阿里云提前5min通知。Cloud