《optimize-llm-workflows-with-smart-infrastructure-enhanced-by-volcano-chuan-hui-volcanozha-xia-27dya-shi-llmxiao-xin-li-qihoo360-xuzheng-chang-huawei-cloud-technologies-co-ltd.pdf》由会员分享,可在线阅读,更多相关《optimize-llm-workflows-with-smart-infrastructure-enhanced-by-volcano-chuan-hui-volcanozha-xia-27dya-shi-llmxiao-xin-li-qihoo360-xuzheng-chang-huawei-cloud-technologies-co-ltd.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、通过 Volcano 增强的智能基础设施优化LLM作流程李鑫,Qihoo360 常旭征,Huawei Cloud Technologies Co.,LTD录1.背景2.现状3.存在问题4.如何解决背景LLM关键词趋势 从 2023 年开始,LLM 受到的关注越来越多 使 Kubernetes 的 LLM 基础设施越来越多 kubernetes 对于 LLM 的持越来越好OpenAI博客文章20182021Google搜索结果现状x3000 x6000/x1000训练推理数据开发文字视频CPUMemoryNVIDIAAscendOthers3000+不同部户,6000+任务每10+集群,1000
2、+节点任务类型复杂性。训练,推理,开发。资源:单任务1-200实例,单实例CPU:1c-200c,GPU:1-8,内存20G-2T功能:ssh免密,pod间打通运:所有实例同时调度运时复杂性。时计天计计共存。计算资源复杂性。CPU,GPU,NPU等络环境复杂性。以太、IB,RoCE存在问题故障效率易性故障掉卡ECC 错误显卡故障卡故障机房掉电误操作NAS异常集群故障NVLINK故障P2P故障散热故障.The Llama 3 Herd of Modelshttps:/ IDE 集成tensorboard,grafana可观测性优化多部资源分配独占资源/公共资源任务抢占任务排队gang调度策略bi
3、npack调度策略Megatron-LMDeepSpeedopensora分布式训练任务LLM 任务多模态任务数据处理单机单卡,单机多卡,多机多卡任务NVIDIAAscend纯 CPU 任务RoCE/IBGPU 切分如何解决Volcano介绍volcano 项是华为开源,CNCF 孵化项。依照 AI 作业特性,建新的资源抽象。弥补 Kubernetes 原不。持queue,持个 job 内多 task,更好的持批量作业持多种计算资源,包括但不限于CPU、GPU、NPU。持多种训练框架,tensorflow,pytorch,飞桨等持多种调度策略,并且持多种调度策略组合,较重要的有gang,pri
4、ority,binpack,drf等。并且兼容 kubernetes 原调度策略,例如镜像感知。易-vcjob更好的批处理作业个 vcjob 包含多个 task,每个 task 是不同的,个 task 包含多个 podtask1 和 task2 可类与 tensorflow 的 ps/worker插件ssh:pod ssh 免密env:创建 pod 索引的环境变量svc:为 vcjob 创建 svc 和 networkpolicyPytorch:开启 svc 插件,打开端,在 pod 中创建 ytorch 使的环境变量Mpi:强制开启 svc、ssh,打开端Tensorflow:开启 svc
5、插件,打开端,在pod中 创建 Tensorflow 使的环境变量易-jobflow持 vcjob 作业流种轻量级的 argo workflow 替代持多种运条件(ongoing)易-queue&podgroupqueuequeuequeuejobjobjobjobjobjobnodenodenodenode多队列持队列内作业抢占队列间队列抢占队列配额按权重划分资源层级队列(ongoing)volcanovcjobdeploymentstatefulsetpodgrouppodpodpod持将其他 Kubernetes 作负载转换为 podgroup,使 volcano 调度易-调度策略-ga
6、ngJob AJob B故障处理-检测&修复软硬件故障不可避免 动检测 尝试修复故障处理-作业重试作业动重试RunningRunningRunningRunningRunningFailureRunningRunningcordonRunningcordonRunningRunningRunning故障节点拉黑动重试效率提升-binpack&task-topologybinpackTask-topologymasterworkermasterworker效率提升-抢占&昇腾优