《14-高效 AI 基础设施:业务灵活弹性 + 云端 GPU 瞬时供应 -Wei JiangYuan Mo.pdf》由会员分享,可在线阅读,更多相关《14-高效 AI 基础设施:业务灵活弹性 + 云端 GPU 瞬时供应 -Wei JiangYuan Mo.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、高效AI基础设施:业务灵活弹性+云端GPU即时供应莫源/阿里云&姜伟/CloudPilot AI目录业界挑战01架构&实现03解决方案02Content总结04Q&A05业界挑战Part 01业界挑战成本高资源确定性差业务/节点弹性不足启动速度受限云上GPU费用较高,如,AWS us-east-1 T4的花费高达$383.98/月。传统集群伸缩关键时刻可能无法弹性足够的计算资源,导致无法处理业务突发峰值。无法及时根据业务需求扩缩容导致资源的浪费/不足。GPU业务通常镜像或所需运行文件巨大,导致启动速度较慢。解决方案Part 02解决方案业务弹性伸缩KServe配置简单,根据业务的请求并发量弹性
2、业务,确保高效响应。节点弹性伸缩Karpenter 提供节点资源弹性,最大化资源利用率,多实例类型选择提升资源供给确定性,同时支持Spot实例以降低成本。数据读取加速利用Fluid的分布式缓存,高性能读取业务初始化文件。镜像加速利用云厂商/开源的延迟加载技术(如AWS SOCI,nydus等),极速启动大镜像业务。-如AWS T4,相比按量,Spot实例能节省70%,其他云厂商类似。-GPU 业务通常涉及特定的容器镜像和模型参数,例如运行大模型时需要使用vLLM 镜像和 DeepSeek 模型参数文件。-根据统计显示,在镜像启动的时候,平均只有 6.4%的数据被真正使用到。-Spot 实例是未
3、被使用的资源,价格低至 On-Demand 实例的 20-30%,但是存在随时被中断的风险.-Spot 价格和中断率查询工具:Spot Insights https:/spot.cloudpilot.ai/解决方案1934.5/月按量1272.0/月包月406.6/月竞价(spot)ecs.r6.2xlarge数据来源:-https:/spot.cloudpilot.ai/alibabacloud?instance=ecs.r6.2xlarge#region=cn-beijing-https:/ A106958.7/月按量4575.6/月包月2436.0/月竞价(spot)架构&实现Part
4、03总体架构KServe介绍KServe是一个开源的云原生模型服务平台,旨在简化在K8s上部署和运行机器学习模型的过程。支持多种推理框架如Pytorch、TF、XGBoost、HF弹性扩容能力灰度发布统一数据面APIGithub 地址:https:/ Service负责数据的Pre/Post处理Predictor Service负责提供推理服务。本次分享主要使用此ServiceStorage Initializer负责加载应用所需的数据/模型。目前支持S3、GCS、Azure云盘、HTTP/HTTPS网页链接及PVCKServe介绍KServe 通过InferenceService CR 即可
5、快速配置服务,拉起服务和弹性服务。Karpenter介绍Karpenter 架构图智能资源匹配如 Pod 需要 GPU 资源,Karpenter 自动弹性 GPU 实例。无需节点组直接根据集群需求创建节点。专为 Kubernetes 设计自动管理集群的节点扩缩容。灵活选型可自动选择最适合的实例类型和规格。Karpenter介绍NodePool 关键特性l 用于管理节点(Node)配置的一种Karpenter 资源。l 声明式定义:设定节点的硬件规格、容量等参数。l 精细化控制:支持标签、污点等配置。l 自动化管理:优化节点创建与生命周期管理。Karpenter介绍NodeClass 关键特性l
6、 用于定义节点(Node)启动配置的一种资源类型。l 声明式管理:设定 AMI 镜像、磁盘挂载、标签等属性。l 灵活配置:支持启动参数等多维度配置。Karpenter介绍Binpack最大化节点利用率,尽可能将 Pod 填充到较少的节点上Rightsizing为 Pod 选择最合适的实例类型,避免资源过剩或不足-通过多节点整合(binpacking)和单节点替换,实现更低的成本和更高的资源利用率。Karpenter介绍-不同云厂商中断通知时间节点不一样,AWS中断提前2min通知,阿里云提前5min通知。Cloud