1、基于开源技术栈构建智能弹性大模型推理服务的架构实践车漾|阿里云车漾阿里云 高级技术专家阿里巴巴云原生应用平台高级技术专家,从事 Kubernetes 和容器相关产品的开发,重点探索利用容器技术加速异构计算、深度学习、边缘计算等广泛场景方案的交付与落地,同时是对于开源社区的积极参与者。他是CNCF旗下开源项目Fluid的创始人之一,也是核心维护者。也是业界第一个 GPU 共享调度的主要作者和维护者。他还是Alluxio开源项目的管理委员会成员(PMC Member),Kubernetes,Docker和Kubeflow等社区的积极贡献者。目 录CONTENTSI.大模型推理对基础设施服务带来新的
2、挑战II.KNative基于请求数的自动弹性策略III.AHPA优化大模型的智能弹性IV.Fluid:弹性数据集编排和加速V.模型加载优化VI.Demo演示Kubernetes 正成为数字化、智能化应用的云原生基础设施The Data on Kubernetes Community 2022调查报告,90%的受访者认为Kubernetes已经可以很好支持有状态应用,其中70%的受访者已经将其运行在生产环境。IDC预测:到2025年,几乎50%的用于性能密集型计算(如AI、HPC和大数据分析)的加速基础设施将迁移至云端Public CloudEdge ComputingPrivate Cloud
3、Kubernetes(容器服务 ACK/ACS)Web/mobile applications Stateless Idempotent Horizontal scalableMySQLSparkFlinkElastic-searchKafkaTensor-FlowPyTorchRedisZoo-KeeperData on Kubernetes 2022异构算力ECS,GPU,FPGA,ECI高性能网络VPC,ENI,RDMA,SLB,DNS高性能存储EBS,NAS,CPFS,OSS大模型推理对基础设施服务带来新的挑战 算力:千卡GPU任务,万卡集群 数据:PB级存储,TB级吞吐 网络:800
4、Gbps3.2Tbps RDMA 训练:分布式,混合并行 推理:模型优化、服务QoS 资源成本:如何充分利用有限计算资源 运维成本:降低复杂度GPT3:175B 参数,单次训练使用45TB数据,近千卡 A100/1个月,成本数百万美元。成本规模性能大模型对基础设施服务能力的挑战是阶跃式的。对“规模、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛。大模型推理对基础设施服务带来新的挑战大模型启动冷启动问题资源调度镜像拉取容器启动模型下载推理启动启动耗时长大模型弹性面临的问题固定实例数自动弹性推理服务120236181202361812023618固定实例数定时弹性HPA资源浪费弹性滞后配
5、置繁琐时间资源时间时间资源资源核心的挑战:在提升资源使用率的同时,保障大模型服务的稳定性和用户体验大模型推理需要基于请求数的自动弹性策略基于 GPU的弹性,并不能完全反映业务的真实使用情况,而基于并发数或者每秒处理请求(QPS/RPS),对于推理服务来说更能直接反映服务性能,Knative Serving提供了基于请求的自动弹性能力Pod数=并发请求总数/(Pod最大并发数*目标使用率)HTTP RouterKubernetesapiserverautoscalerActivator on/offActivatorQueue-ProxyUser containercontainerConcur
6、rencyPodReplicaSetCount=NConcurrent requestsConcurrent requestsTraffic split(Revision assignment)特定离线推理场景需要缩容到0GatewayActivatorRevisionSKSProxyServeActiveNYAutoscalerConcurrencyQUEUEScaleQueuepush metricsUserContainerpull metricsPodUpdate Serverless Kubernetes-style Service Mode:1.Proxy(The revision