1、主持人:向 阳云杉网络VP金美琴龙蜥社区运营委员会副主席龙腾计划生态负责人毛文安阿里云高级技术专家龙蜥社区系统运维联盟委员向 阳云杉网络VP出品单位:龙蜥社区系统运维联盟、阿里云、云杉网络出品团队:金美琴、毛文安、向阳、刘寅、董翰文、卫硕、李会佳、贺迪出品人主持人:向 阳云杉网络VP提升大模型训练和推理应用的效能和可靠性AI 基础设施需要什么样的可观测性云杉网络向阳向阳清华大学博士,云杉网络研发 VP,DeepFlow 开源社区负责人。曾在国际顶级学术会议 ACM SIGCOMM、ACM IMC 上发表可观测性方向的学术论文。云杉网络研发 VP现负责可观测性产品 DeepFlow,致力于打造一
2、款云原生和 AI 应用的零侵扰可观测性产品。挑战模型训练和推理在线推理服务端侧推理应用0101现状DCGMNsightPyTorch0202探索GPU&HBM ProfilingRDMA ProfilingDistributed Tracing0303实践头部券商+通义千问0404提高训练和推理的效率、保障推理服务的可靠性挑战LLM 训练开销大、效率低GPT-4Llama-3.1Size1.8T405BGPU25K A10016K H100Days9010054MFU32%36%38%43%Everything We Know About GPT-4-Klu.aiGPT4-All Detail
3、s LeakedThe Llama 3 Herd of Models训练时间长:数月GPU 数量多:数万GPU 利用率低:40%GPU 年化故障高:6%11%模型参数大:万亿148/54*365/16384=6%(148+72+19+17+6+6)/54*365/16384=11%低效代码比硬件故障影响更大内核计算显存拷贝网络传输Yanjie Gao(Microsoft Research)et al,ACM ICSE 2024,An Empirical Study on Low GPU Utilization of Deep Learning Jobs.Yanjie Gao(Microsoft
4、 Research)et al,ACM ICSE 2023,An Empirical Study on Quality Issues of Deep Learning Platform.如何知晓你的训练任务是否存在这些问题?LLM 推理开销大、时延高Llama8B70B405BFP3236GB267GB1.48TBFP1620GB135GB758GBINT812GB70GB382GBINT48GB37GB193GBLLM Memory RequirementsLLM Inference Performance Engineering:Best Practices80GB:1 GPU640GB:
5、1 Node x 8 GPU1.28TB:2 Node x 8 GPUTime To First Token(TTFT)Time Per Output Token(TPOT)Model Bandwidth Utilization(MBU)GPU 并非越少越好GPU 越少,则每个 GPU 需要加载更多的模型参数。GPU 并非越多越好GPU 越多,则通信越复杂,内存碎块越多。没有银弹,可观测性是优化的前提。排查 LLM 推理显存消耗的挑战Python/C+PyTorchvLLMBizAPIGWAuthServiceRAGVectorDBToolsCacheGatewayLLM-1LLM-2vLLM
6、PyTorchSGLang.LLMAgentMemCacheDiskCache云-在线推理服务是一个复杂的分布式服务TTFT、TPOT、时延、吞吐端-自动驾驶、具身智能(ROS2)的端到端低时延和高稳定性要求Robot Operating System 2(ROS2)-Based Frameworks for Increasing Robot Autonomy:A SurveyPromptsSignalsPerception-Planning-ControlBEV-OCC-Transformer从推理应用到在线 LLM 推理服务Accelerating Model Training in Mu