15-Automated Model Serving in HP Cloud-John Zheng.pdf

编号:620948 PDF 37页 1.36MB 下载积分:VIP专享
下载报告请您先登录!

15-Automated Model Serving in HP Cloud-John Zheng.pdf

1、HP云的模型服务自动化实践惠普DevOps架构师 郑风ContentHP云介绍01基于 KServe/Istio/Envoy 的架构实现03模型推理平台的需求与设计0204问答环节-模型部署-模型访问权限控制-HPA 动态扩展-可观测性-LLM Token 限流和统计-金丝雀发布目录HP云介绍Part 01HP云介绍 惠普云主要架在Amazon上,提供惠普内部项目所有服务的部署、监控、运维及管理。Kubernetes Istio Harbor Azure Pipeline 全方位自动化 基础设施全面实现即代码化(Infrastructure as Code)Terraform 服务自动化部署,

2、项目组可自助完成部署。Helm,Flux2模型推理平台的需求与设计Part 02模型推理平台的需求 模型推理需求日益增长,云端部署与管理:-生成式 AI:Llama3、QWen.-传统机器学习:Scikit-learn、XGBoost-深度学习:TensorFlow Serving、PyTorch ONNX 模型-其他:Hugging Face Transformers 模型存储需支持:Hugging Face、S3、PVC、EFS 任何项目都能方便发布自己的模型推理 所有模型推理不用任何额外实现,就自动拥有 权限管理,限流,动态扩展,可观测性 等功能模型推理平台的设计 KServe 为基础(

3、不用 Knative)不依赖于 KServe,自己实现-模型访问权限控制(Istio)-HPA 动态扩展(Prometheus Adapter)-可观测性-LLM Token 限流和统计(enovyfilter)-金丝雀发布(Istio)-API 限流(Envoy ratelimit)-基于 KServe/Istio/Envoy 的架构实现Part 03-模型部署-模型访问权限控制-HPA 动态扩展-可观察性-API Rate Limit-LLM Token 限流和统计-金丝雀发布实现 模型部署Part 03-01模型部署KServe:标准化模型推理平台 支持多种模型 自动化部署运行环境:Am

4、azon EKS无服务架构 Knative 不适合我们,所以不用模型部署 KServe 核心功能:支持各种推理模型,如:Hugging Face,PyTorch,Scikit-learn (支持自定义推理模型,这样可发布我们自己的模型,也可以原生使用 vllm 等框架)支持各种模型存储,如:Hugging Face、S3、PVC、EFS 支持 Model Explainability(模型可解释性)支持 Multi Model Serving(多模型)和 Inference Graph(推理工作流)集成Helm 和 Flux2,实现自动化部署 Sample Code支持 GPU NodePub

5、lic subnetNAT gatewayPrivate subnetAuto Scaling groupm5n.2xlarge InstancesIstio IngressgatewaysAuto Scaling group GPUg4dn.xlarge InstancesFoundation ModelsAI ModelsCore ServicesAvailability ZonesVPCAmazonAdd“nodegroup gpu”in terragrunt file:k8s-device-pluginInstall支持 GPU Node模型如何申请 GPU资源?需要 GPU 的 PO

6、D跑在 GPU NodeModel owner在 配置文件定义:resources:requestGPU:1limitGPU:1HelmRelease ValueHelm Charts实现 模型服务访问控制(通过Istio)Part 03-02模型服务访问控制HP Other PlatformALBIstio IngressgatewaysAI ModelsVPCAmazonOther ServiceWithout tokenNeed tokenEKSNeed tokenVirtual ServiceSame NamespaceOther NamespaceOther ServiceNeed

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(15-Automated Model Serving in HP Cloud-John Zheng.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠