《01-使用 eBPF 实现 LLM 推理服务的全站可观测性 -Yang Xiang.pdf》由会员分享,可在线阅读,更多相关《01-使用 eBPF 实现 LLM 推理服务的全站可观测性 -Yang Xiang.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、使用 eBPF 实现LLM 推理服务的全栈可观测性向阳 云杉网络目录自建 LLM 推理服务的挑战01基于 eBPF 的全栈可观测性03如何建设推理服务的可观测性02ContentDeepFlow 用户的实践04自建 LLM 推理服务的挑战Part 01DeepSeek让 LLM 推理服务私有化建设加速如何保障自建 LLM 推理服务的用户体验?硬件“水很深”?依靠“搬运工”?如何打开性能黑盒,选型、配比、调优多厂商 GPU 芯片?从 LLM 推理服务视角不同的 AI 芯片如何选型、配比、调参需要第三方的、全栈的可观测性系统同样的训练/推理代码在不同硬件下的性能表现一样吗?GPU 内核计算(25.
2、64%)显存拷贝(27.90%)文件读写(16.43%)Yanjie Gao(Microsoft Research)et al,ACM ICSE 2024,An Empirical Study on Low GPU Utilization of Deep Learning Jobs.Yanjie Gao(Microsoft Research)et al,ACM ICSE 2023,An Empirical Study on Quality Issues of Deep Learning Platform.千亿参数 LLM 推理服务、AI 智能体的复杂性基于 ACK 的 Deepseek 满血版
3、分布式推理部署实战如何建设推理服务的可观测性Part 02实现可观测性的狭义解读云原生环境下 LLM 推理服务的可观测性分布式推理服务的全链路 TTFT、TPOTK8s Infra Span分布式推理服务的CPU&GPU、RAM&HBM Profiling推理服务 Infra 指标:Prometheus+NVIDIA DCGM ExporterGPU 卡粒度的性能指标。虚拟 GPU 卡?推理服务业务指标:Prometheus+L7 AI Gateway Metrics业务自身暴露需要引入Prometheus SDKL7 AI 网关暴露仅暴露网关处的时延调用链追踪:分布式推理服务 Instrum
4、entationOpenLLMetryOpenLITLangSmithInstrumentation仅采集到进程内的时延性能剖析:GPU Profiling、HBM ProfilingNVIDIA Nsight 的问题:深入 GPU 细节,缺少 CPU Context,对GPU“应用”开发者不友好。PyTorch Profiler 的问题:只能用于 PyTorch;性能影响大;需要改代码、重启进程。需要手工精心打造插桩、开销基于 eBPF 的全栈可观测性Part 03为什么使用 eBPF:零侵扰、全栈cuda/ibverbscudaXXX()ncclXXX()Zero CodeFullStac
5、kMetrics:云原生环境下需要全栈性能指标nginx podnginx podnginx podnginx podk8s nodek8s nodek8s nodek8s nodeserving pod408k8s nodeserving podk8s nodeserving podk8s nodeserving podk8s nodeserving podk8s nodewhere?why?Metrics:使用 eBPF 采集 LLM 推理服务的全栈性能指标容器K8sKVMUnderlayKVMK8s容器服务端客户端Metrics:使用 eBPF 的主要挑战,Streaming API传统
6、客户端传统服务端LLM 推理客户端LLM 推理服务端请求初始响应响应(首 Token)响应(Token)响应(Token)响应(Token)响应(Token)请求响应TTFTTPOTMetrics:使用 eBPF 的主要挑战,新的协议Tracing:使用 eBPF 实现 Python、Golang 推理引擎的追踪零侵扰热加载高性能全栈全栈路径:业务、进程、Pod、网关、文件读写Tracing:使用 eBPF 实现 Disk/OSS KV Cache IO 的追踪推理请求(Span)KV Cache ReadKV C