当前位置:首页 > 报告详情

向阳-AiDD-基于eBPF和Agent构建LLM训练推理优化体系.pdf

上传人: 鲁** 编号:615362 2025-03-03 47页 13.54MB

1、基于 eBPF 和 Agent 构建LLM 训练推理优化体系向阳 云杉网络演讲嘉宾向阳清华大学博士/云杉网络研发 VP清华大学博士,云杉网络研发 VP,DeepFlow 开源社区负责人。曾在国际顶级学术会议 ACM SIGCOMM、ACM IMC 上发表可观测性方向的学术论文,现负责可观测性产品 DeepFlow,致力于打造一款为云原生和 AI 应用而生的零侵扰可观测性产品。目 录CONTENTS1.背景:训练和推理的效率挑战2.现状:传统解决方案和工具的问题3.方法:eBPF 构建零侵扰可观测性4.实践:PyTorch 全栈剖析和追踪5.探索:Agent 自动优化 ML 代码背景:训练和推理

2、的效率挑战PART 01LLM 训练开销大、效率低GPT-4Llama-3.1参数1.8T405BGPU25K A10016K H100时长90100 天54 天MFU32%36%38%43%Everything We Know About GPT-4-Klu.aiGPT4-All Details LeakedThe Llama 3 Herd of Models训练时间长:数月GPU 数量多:数万GPU 利用率低:40%GPU 年化故障高:6%11%模型参数大:万亿148/54*365/16384=6%(148+72+19+17+6+6)/54*365/16384=11%代码层面训练低效的主要

3、原因计算效率显存拷贝网络传输 Yanjie Gao(Microsoft Research)et al,ACM ICSE 2024,An Empirical Study on Low GPU Utilization of Deep Learning Jobs.Yanjie Gao(Microsoft Research)et al,ACM ICSE 2023,An Empirical Study on Quality Issues of Deep Learning Platform.如何知晓你的训练任务是否存在这些问题?LLM 推理开销大、时延高Llama8B70B405BFP3236GB267G

4、B1.48TBFP1620GB135GB758GBINT812GB70GB382GBINT48GB37GB193GBLLM Memory RequirementsLLM Inference Performance Engineering:Best Practices80GB:1 GPU640GB:1 Node x 8 GPU1.28TB:2 Node x 8 GPUTime To First Token(TTFT)Time Per Output Token(TPOT)Model Bandwidth Utilization(MBU)GPU 并非越少越好GPU 越少,则每个GPU 需要加载更多的模

5、型参数。GPU 并非越多越好GPU 越多,则通信越复杂,内存碎块越多。没有银弹,唯有持续观测&优化。排查 LLM 推理显存消耗的挑战Python/C+PyTorchvLLMBiz从推理应用到在线 LLM 推理服务APIGWAuthServiceRAGVectorDBToolsCacheGatewayLLM-1LLM-2vLLMPyTorchSGLang.LLMAgentMemCacheDiskCache云-在线推理服务是一个复杂的分布式服务TTFT、TPOT、时延、吞吐端-自动驾驶、具身智能(ROS2)的端到端低时延和高稳定性要求Robot Operating System 2(ROS2)-B

6、ased Frameworks for Increasing Robot Autonomy:A SurveyPromptsSignalsPerception-Planning-ControlBEV-OCC-Transformer从大模型到小模型:消费级 GPU、CPU 协同Accelerating Model Training in Multi-cluster Environments with Consumer-grade GPUs,SIGCOMM 2024.AI 训练和推理的可观测性需求GPU计算HBM显存COMM通信SpanSpanSpanSpanSpan训练&推理在线、端侧推理服务cu

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了基于eBPF和Agent构建LLM训练推理优化体系。首先,文章指出LLM训练开销大、效率低,以及推理开销大、时延高的问题。接着,文章分析了传统解决方案和工具的问题,如Nsight和PyTorch Profiler需要重启进程、性能影响大等。然后,文章提出了使用eBPF构建零侵扰可观测性的方法,并介绍了eBPF的可观测性能力。文章还提到了DeepFlow,一款为云原生和AI应用而生的零侵扰可观测性产品。最后,文章分享了PyTorch全栈剖析和追踪的实践,以及eBPF在分布式追踪和自动优化ML代码方面的探索。
"如何提升LLM训练推理效率?" "如何解决传统AI训练推理工具的问题?" "eBPF技术在AI应用观测性优化中的作用是什么?"
客服
商务合作
小程序
服务号
折叠