《15-Automated Model Serving in HP Cloud-John Zheng.pdf》由会员分享,可在线阅读,更多相关《15-Automated Model Serving in HP Cloud-John Zheng.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、HP云的模型服务自动化实践惠普DevOps架构师 郑风ContentHP云介绍01基于 KServe/Istio/Envoy 的架构实现03模型推理平台的需求与设计0204问答环节-模型部署-模型访问权限控制-HPA 动态扩展-可观测性-LLM Token 限流和统计-金丝雀发布目录HP云介绍Part 01HP云介绍 惠普云主要架在Amazon上,提供惠普内部项目所有服务的部署、监控、运维及管理。Kubernetes Istio Harbor Azure Pipeline 全方位自动化 基础设施全面实现即代码化(Infrastructure as Code)Terraform 服务自动化部署,
2、项目组可自助完成部署。Helm,Flux2模型推理平台的需求与设计Part 02模型推理平台的需求 模型推理需求日益增长,云端部署与管理:-生成式 AI:Llama3、QWen.-传统机器学习:Scikit-learn、XGBoost-深度学习:TensorFlow Serving、PyTorch ONNX 模型-其他:Hugging Face Transformers 模型存储需支持:Hugging Face、S3、PVC、EFS 任何项目都能方便发布自己的模型推理 所有模型推理不用任何额外实现,就自动拥有 权限管理,限流,动态扩展,可观测性 等功能模型推理平台的设计 KServe 为基础(
3、不用 Knative)不依赖于 KServe,自己实现-模型访问权限控制(Istio)-HPA 动态扩展(Prometheus Adapter)-可观测性-LLM Token 限流和统计(enovyfilter)-金丝雀发布(Istio)-API 限流(Envoy ratelimit)-基于 KServe/Istio/Envoy 的架构实现Part 03-模型部署-模型访问权限控制-HPA 动态扩展-可观察性-API Rate Limit-LLM Token 限流和统计-金丝雀发布实现 模型部署Part 03-01模型部署KServe:标准化模型推理平台 支持多种模型 自动化部署运行环境:Am
4、azon EKS无服务架构 Knative 不适合我们,所以不用模型部署 KServe 核心功能:支持各种推理模型,如:Hugging Face,PyTorch,Scikit-learn (支持自定义推理模型,这样可发布我们自己的模型,也可以原生使用 vllm 等框架)支持各种模型存储,如:Hugging Face、S3、PVC、EFS 支持 Model Explainability(模型可解释性)支持 Multi Model Serving(多模型)和 Inference Graph(推理工作流)集成Helm 和 Flux2,实现自动化部署 Sample Code支持 GPU NodePub
5、lic subnetNAT gatewayPrivate subnetAuto Scaling groupm5n.2xlarge InstancesIstio IngressgatewaysAuto Scaling group GPUg4dn.xlarge InstancesFoundation ModelsAI ModelsCore ServicesAvailability ZonesVPCAmazonAdd“nodegroup gpu”in terragrunt file:k8s-device-pluginInstall支持 GPU Node模型如何申请 GPU资源?需要 GPU 的 PO
6、D跑在 GPU NodeModel owner在 配置文件定义:resources:requestGPU:1limitGPU:1HelmRelease ValueHelm Charts实现 模型服务访问控制(通过Istio)Part 03-02模型服务访问控制HP Other PlatformALBIstio IngressgatewaysAI ModelsVPCAmazonOther ServiceWithout tokenNeed tokenEKSNeed tokenVirtual ServiceSame NamespaceOther NamespaceOther ServiceNeed