15-Automated Model Serving in HP Cloud-John Zheng.pdf

上传人：张**

编号：620948

2025-03-31

PDF 37页 1.36MB

《15-Automated Model Serving in HP Cloud-John Zheng.pdf》由会员分享，可在线阅读，更多相关《15-Automated Model Serving in HP Cloud-John Zheng.pdf（37页珍藏版）》请在三个皮匠报告上搜索。

1、HP云的模型服务自动化实践惠普DevOps架构师郑风ContentHP云介绍01基于 KServe/Istio/Envoy 的架构实现03模型推理平台的需求与设计0204问答环节-模型部署-模型访问权限控制-HPA 动态扩展-可观测性-LLM Token 限流和统计-金丝雀发布目录HP云介绍Part 01HP云介绍惠普云主要架在Amazon上，提供惠普内部项目所有服务的部署、监控、运维及管理。Kubernetes Istio Harbor Azure Pipeline 全方位自动化基础设施全面实现即代码化（Infrastructure as Code）Terraform 服务自动化部署，

2、项目组可自助完成部署。Helm,Flux2模型推理平台的需求与设计Part 02模型推理平台的需求模型推理需求日益增长，云端部署与管理：-生成式 AI：Llama3、QWen.-传统机器学习：Scikit-learn、XGBoost-深度学习：TensorFlow Serving、PyTorch ONNX 模型-其他：Hugging Face Transformers 模型存储需支持：Hugging Face、S3、PVC、EFS 任何项目都能方便发布自己的模型推理所有模型推理不用任何额外实现，就自动拥有权限管理，限流，动态扩展，可观测性等功能模型推理平台的设计 KServe 为基础(

3、不用 Knative)不依赖于 KServe,自己实现-模型访问权限控制(Istio)-HPA 动态扩展(Prometheus Adapter)-可观测性-LLM Token 限流和统计(enovyfilter)-金丝雀发布(Istio)-API 限流(Envoy ratelimit)-基于 KServe/Istio/Envoy 的架构实现Part 03-模型部署-模型访问权限控制-HPA 动态扩展-可观察性-API Rate Limit-LLM Token 限流和统计-金丝雀发布实现模型部署Part 03-01模型部署KServe：标准化模型推理平台支持多种模型自动化部署运行环境：Am

4、azon EKS无服务架构 Knative 不适合我们，所以不用模型部署 KServe 核心功能：支持各种推理模型，如：Hugging Face,PyTorch,Scikit-learn （支持自定义推理模型，这样可发布我们自己的模型，也可以原生使用 vllm 等框架）支持各种模型存储，如：Hugging Face、S3、PVC、EFS 支持 Model Explainability(模型可解释性)支持 Multi Model Serving(多模型)和 Inference Graph(推理工作流)集成Helm 和 Flux2，实现自动化部署 Sample Code支持 GPU NodePub

5、lic subnetNAT gatewayPrivate subnetAuto Scaling groupm5n.2xlarge InstancesIstio IngressgatewaysAuto Scaling group GPUg4dn.xlarge InstancesFoundation ModelsAI ModelsCore ServicesAvailability ZonesVPCAmazonAdd“nodegroup gpu”in terragrunt file:k8s-device-pluginInstall支持 GPU Node模型如何申请 GPU资源？需要 GPU 的 PO

6、D跑在 GPU NodeModel owner在配置文件定义：resources:requestGPU:1limitGPU:1HelmRelease ValueHelm Charts实现模型服务访问控制(通过Istio)Part 03-02模型服务访问控制HP Other PlatformALBIstio IngressgatewaysAI ModelsVPCAmazonOther ServiceWithout tokenNeed tokenEKSNeed tokenVirtual ServiceSame NamespaceOther NamespaceOther ServiceNeed

15-Automated Model Serving in HP Cloud-John Zheng.pdf

相关报告