《王夕宁-大语言模型服务管理的实践分享.pdf》由会员分享,可在线阅读,更多相关《王夕宁-大语言模型服务管理的实践分享.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、大语言模型服务管理的实践分享王夕宁/马元元 阿里云演讲嘉宾王夕宁阿里云容器服务技术研发负责人 阿里云容器服务Kubernetes及Service Mesh技术研发负责人,拥有100多项相关领域的国际技术专利,专注于Kubernetes/云原生/服务网格等领域。曾在IBM研发中心工作,担任资深架构师和技术专家,主导和参与了一系列 SOA 中间件和云计算领域的产品研发,并曾担任中国研发中心专利技术评审委员会主席。出席过行业内多个技术大会,包括 Kubecon、InfoQ、ArchSummit、IstioCon 和云栖大会等。同时,著有畅销书Istio 服务网格解析与实战。目 录CONTENTS1.
2、LLM服务管理的特征与挑战2.应对思路与方案3.现有的技术基础之上扩展支持4.MSM:用于管理 GenAI/LLM 工作负载的统一方式LLM服务管理的特征与挑战PART 01GenAI/LLM服务管理面临独特的挑战传统网络流量管理GenAI/LLM流量管理请求/响应大小较小由于多模态流量,请求/响应大小较大许多查询可以并行处理单个大语言模型查询经常占用100%的TPU/GPU计算时间请求一到达就进行处理请求等待可用的计算资源处理时间以毫秒计算处理时间从几秒到几分钟不等相似请求可以从缓存中得到处理每次请求通常生成唯一内容请求成本由后端管理根据请求将流量路由到更便宜或更昂贵的模型传统的轮询或基于利
3、用率的流量管理具备AI感知的负载均衡能力流量请求调度 Traffic Request Schedulingv 基于历史数据和模型特性,训练出一个代理模型,用于预测每个推理请求的序列长度。v 利用代理模型的序列长度预测的推测最短作业优先(SSJF)调度器。由于GenAI/LLM模型的回归特性,LLM推理请求的有效服务临不可预测的执时间的挑战。LLM服务系统多采先进先出(FCFS)调度,遭受阻塞(head-of-line)问题。应对思路与方案PART 02SSJF调度器-引入Token长度预测器 输出Token长度(N)决定了请求的执行时间(T),因为T=C+K N,K是生成一个标记的延迟,C是模
4、型服务系统的开销,包括DNS查找、代理、排队和输入标记化。K取决于模型优化技术(例如,量化)和执行环境(例如,硬件),对于所有输入都是相同的。输出Token长度决定执行时间(线性关系)End UsersR1R2R3Request PoolSSJF调度器-Speculative Shortest Job First请求队列的处理GPU集群模型服务请求批处理Output Token Length Predictor预测Token长度Ref:https:/ 流量调度管理套件统一的流量请求调度器统一的策略资源定义及控制器优先处理工作负载,保障关键用户体验路径使用权重公平排队,根据业务价值和请求紧急程度
5、调整资源分配,来实现应用程序的优雅降级自适应调整请求速率限制,保护服务不受过载和级联故障的影响通过细粒度标签识别单个用户,根据业务特定标签控制爆发能力和填充速率;限制每个用户或全局并发中请求的并发量;使用全局令牌桶和智能请求排队,根据重要性安排请求 和限流不同,若请求速率超过限制,此时请求不会被直接拒绝,而是进入一个优先级队列,在保证请求速率始终在限制内的同时对请求进行优先级调度。通过限制并发中请求的数量,防范服务突然过载。超出此限制的任何请求将进入队列,并根据它们的优先级在有能力提供服务时予以处理 用于根据重要性调度请求,同时确保应用遵守并发限制。基于闭环反馈来逐步增加系统的工作负荷或请求量
6、,而不是瞬间施加大的负载。能够帮助系统逐步适应增加的负荷,从而确保系统在负载增加过程中仍然稳定运行,并最大限度地减少对系统的冲击。通过缓存成本高昂的操作,防止对按使用付费服务的重复请求,减轻对受限服务的负载,提升应用程序性能并降低成本流量调度管理套件基于现有技术还是从零开始?YAMLDev/Ops/SRE控制面组件网格代理网格代理应用服务实例A应用服务实例BSidecarSidecarContainerContainerMachine/PodMachine/PodData控制平面层数据平面层业务应用层RequestPodConfigurationConfiguration服务网格技术通过扩展插