《王夕宁-大语言模型服务管理的实践分享.pdf》由会员分享,可在线阅读,更多相关《王夕宁-大语言模型服务管理的实践分享.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、大语言模型服务管理的实践分享王夕宁/马元元 阿里云演讲嘉宾王夕宁阿里云容器服务技术研发负责人 阿里云容器服务Kubernetes及Service Mesh技术研发负责人,拥有100多项相关领域的国际技术专利,专注于Kubernetes/云原生/服务网格等领域。曾在IBM研发中心工作,担任资深架构师和技术专家,主导和参与了一系列 SOA 中间件和云计算领域的产品研发,并曾担任中国研发中心专利技术评审委员会主席。出席过行业内多个技术大会,包括 Kubecon、InfoQ、ArchSummit、IstioCon 和云栖大会等。同时,著有畅销书Istio 服务网格解析与实战。目 录CONTENTS1.
2、LLM服务管理的特征与挑战2.应对思路与方案3.现有的技术基础之上扩展支持4.MSM:用于管理 GenAI/LLM 工作负载的统一方式LLM服务管理的特征与挑战PART 01GenAI/LLM服务管理面临独特的挑战传统网络流量管理GenAI/LLM流量管理请求/响应大小较小由于多模态流量,请求/响应大小较大许多查询可以并行处理单个大语言模型查询经常占用100%的TPU/GPU计算时间请求一到达就进行处理请求等待可用的计算资源处理时间以毫秒计算处理时间从几秒到几分钟不等相似请求可以从缓存中得到处理每次请求通常生成唯一内容请求成本由后端管理根据请求将流量路由到更便宜或更昂贵的模型传统的轮询或基于利
3、用率的流量管理具备AI感知的负载均衡能力流量请求调度 Traffic Request Schedulingv 基于历史数据和模型特性,训练出一个代理模型,用于预测每个推理请求的序列长度。v 利用代理模型的序列长度预测的推测最短作业优先(SSJF)调度器。由于GenAI/LLM模型的回归特性,LLM推理请求的有效服务临不可预测的执时间的挑战。LLM服务系统多采先进先出(FCFS)调度,遭受阻塞(head-of-line)问题。应对思路与方案PART 02SSJF调度器-引入Token长度预测器 输出Token长度(N)决定了请求的执行时间(T),因为T=C+K N,K是生成一个标记的延迟,C是模
4、型服务系统的开销,包括DNS查找、代理、排队和输入标记化。K取决于模型优化技术(例如,量化)和执行环境(例如,硬件),对于所有输入都是相同的。输出Token长度决定执行时间(线性关系)End UsersR1R2R3Request PoolSSJF调度器-Speculative Shortest Job First请求队列的处理GPU集群模型服务请求批处理Output Token Length Predictor预测Token长度Ref:https:/ 流量调度管理套件统一的流量请求调度器统一的策略资源定义及控制器优先处理工作负载,保障关键用户体验路径使用权重公平排队,根据业务价值和请求紧急程度
5、调整资源分配,来实现应用程序的优雅降级自适应调整请求速率限制,保护服务不受过载和级联故障的影响通过细粒度标签识别单个用户,根据业务特定标签控制爆发能力和填充速率;限制每个用户或全局并发中请求的并发量;使用全局令牌桶和智能请求排队,根据重要性安排请求 和限流不同,若请求速率超过限制,此时请求不会被直接拒绝,而是进入一个优先级队列,在保证请求速率始终在限制内的同时对请求进行优先级调度。通过限制并发中请求的数量,防范服务突然过载。超出此限制的任何请求将进入队列,并根据它们的优先级在有能力提供服务时予以处理 用于根据重要性调度请求,同时确保应用遵守并发限制。基于闭环反馈来逐步增加系统的工作负荷或请求量
6、,而不是瞬间施加大的负载。能够帮助系统逐步适应增加的负荷,从而确保系统在负载增加过程中仍然稳定运行,并最大限度地减少对系统的冲击。通过缓存成本高昂的操作,防止对按使用付费服务的重复请求,减轻对受限服务的负载,提升应用程序性能并降低成本流量调度管理套件基于现有技术还是从零开始?YAMLDev/Ops/SRE控制面组件网格代理网格代理应用服务实例A应用服务实例BSidecarSidecarContainerContainerMachine/PodMachine/PodData控制平面层数据平面层业务应用层RequestPodConfigurationConfiguration服务网格技术通过扩展插
7、件增强AI服务管理模型网格代理请求信息转换自定义日志与监控指标提示词预处理请求方模型推理服务DLP数据丢失预防(敏感信息防护)插件市场 开箱即用的扩展能力提示词保护提示词修饰响应信息转换现有的技术基础之上扩展支持PART 03声明式API支持增强AI服务管理模型网格代理请求信息转换自定义日志与监控指标提示词预处理请求方模型推理服务DLP数据丢失预防(敏感信息防护)提示词保护提示词修饰响应信息转换LLMSecurityPolicy声明式用户接口LLMRouteIstio原生APILLMProviderLLM请求路由LLMProvider外部LLM服务管理LLMRouteServiceEntryV
8、irtualService外部HTTP服务管理相比普通的网关,ASM支持更多使用场景客户端通过入口网关直接访问外部LLM服务。(二方业务)集群内服务访问外部LLM服务。(三方业务)业务Pod出口网关ServiceEntry入口网关外部服务用户集群业务Pod出口网关LLMProvider入口网关外部LLM服务用户集群LLM请求路由外部HTTP服务管理基础设施级别的LLM请求路由支持:应用无感、动态配置、灵活切换根据用户身份动态调整后端模型按比例在多个Provider之间分发流量业务PodLLMProvider灵积灵积服务用户集群qwen-1.8b-chatqwen-turbo普通用户订阅用户业务
9、PodLLMProvider灵积用户集群50%LLMProvider Moonshot灵积服务Moonshot50%LLM请求路由访问外部 LLMProvider自动完成HTTP到HTTPS协议升级自动配置model、stream以及API_KEY。业务Pod出口网关LLMProvider入口网关外部LLM服务用户集群LLM请求路由根据用户身份动态调整后端模型业务PodLLMProvider灵积灵积服务用户集群qwen-1.8b-chatqwen-turbo普通用户订阅用户LLM请求路由按比例在多个Provider之间分发流量业务PodLLMProvider灵积用户集群50%LLMProvid
10、er Moonshot灵积服务Moonshot50%LLM请求安全防护API_KEY管理安全防护能力敏感信息校验全链路TLS/mTLS全链路、多角度的LLM请求安全防护:能力全面、责任分离,满足多种防护场景JWT身份校验授权策略LLM请求安全防护多种安全模型:基于入口网关、sidecar以及基于出口网关应用无感基于入口网关的安全模型入口网关作为策略执行点(PEP)执行各种安全策略私有的小尺寸模型,用于鉴别敏感信息适用于普通二方业务,可以利用ASM网关完善的安全能力基于sidecar的安全模型Sidecar作为策略执行点。适用于三方业务链路简单,可执行敏感信息检测、HTTPS发起、API_KEY
11、轮换能力等入口网关用户集群HTTPS流量外部模型服务HTTPS流量私有模型mTLS用户集群外部模型服务HTTP流量私有模型mTLS业务容器sidecarHTTPHTTPSLLM请求安全防护基于出口网关的安全模型多种安全模型:基于入口网关、sidecar以及基于出口网关应用无感出口网关作为策略执行点适用于安全要求更高的三方业务,拥有完善的安全能力API_KEY轮换以及防泄漏敏感信息检测全链路TLS/mTLSJWT身份校验授权策略外部鉴权用户集群外部模型服务HTTP流量私有模型mTLS出口网关业务容器sidecarHTTPmTLSHTTPSLLM请求安全防护多种安全能力,全方位保障LLM应用安全J
12、WT身份校验以入口网关模型为例:入口网关作为策略执行点。使用ASMSecurityPolicy API对请求进行校验,防止未经授权客户端访问LLM服务。入口网关用户集群HTTPS流量外部模型服务HTTPS流量私有模型mTLSLLM请求安全防护多种安全能力,全方位保障LLM应用安全授权策略API_KEY管理通过LLMProvider配置可以实现流量无损的API_KEY轮转。API_KEY保存在网关内存中(基于网关的安全模型),客户端无法感知,防止泄漏。LLM请求安全防护多种安全能力,全方位保障LLM应用安全敏感信息校验出口网关作为策略执行点LLM请求Message静态模式匹配使用私有小模型动态判
13、断请求是否包含敏感信息用户集群外部模型服务HTTP流量私有模型mTLS出口网关业务容器sidecarHTTPmTLSHTTPSLLM请求可观测访问日志可观测监控指标基于服务网格原生Telemetry资源定制可观测 Log、Metrics、Trace,兼容OpenTelemetry标准链路追踪监控指标新增指标Prompt_tokensCompletion_tokens维度请求源信息目标ProviderModel原生指标增强访问日志增强自定义访问日志字段支持查看请求级别的token消耗情况、请求model动态配置,范围灵活Model Service Mesh:用于管理GenAI/LLM 工作负载的统一方式PART 04Model Service Mesh=Service Mesh+Model Service PipelineAI WorkloadProxy服务网格数据面AI WorkloadProxy服务编排控制面服务网格控制面服务编排数据面案例分享 简化版GenAI示例:ChatQnA MSM Controllerretriever-svcreranking-svcembedding-svc-largeembedding-svc-smallllm-svc-intelllm-svc-llama数据面控制面基于服务网格技术的流量、安全、可观测规则配置服务编排部署THANKS