optimize-llm-workflows-with-smart-infrastructure-enhanced-by-volcano-chuan-hui-volcanozha-xia-27dya-shi-llmxiao-xin-li-qihoo360-xuzheng-chang-huawei-cloud-technologies-co-ltd.pdf

编号:627296 PDF 21页 5.60MB 下载积分:VIP专享
下载报告请您先登录!

optimize-llm-workflows-with-smart-infrastructure-enhanced-by-volcano-chuan-hui-volcanozha-xia-27dya-shi-llmxiao-xin-li-qihoo360-xuzheng-chang-huawei-cloud-technologies-co-ltd.pdf

1、通过 Volcano 增强的智能基础设施优化LLM作流程李鑫,Qihoo360 常旭征,Huawei Cloud Technologies Co.,LTD录1.背景2.现状3.存在问题4.如何解决背景LLM关键词趋势 从 2023 年开始,LLM 受到的关注越来越多 使 Kubernetes 的 LLM 基础设施越来越多 kubernetes 对于 LLM 的持越来越好OpenAI博客文章20182021Google搜索结果现状x3000 x6000/x1000训练推理数据开发文字视频CPUMemoryNVIDIAAscendOthers3000+不同部户,6000+任务每10+集群,1000

2、+节点任务类型复杂性。训练,推理,开发。资源:单任务1-200实例,单实例CPU:1c-200c,GPU:1-8,内存20G-2T功能:ssh免密,pod间打通运:所有实例同时调度运时复杂性。时计天计计共存。计算资源复杂性。CPU,GPU,NPU等络环境复杂性。以太、IB,RoCE存在问题故障效率易性故障掉卡ECC 错误显卡故障卡故障机房掉电误操作NAS异常集群故障NVLINK故障P2P故障散热故障.The Llama 3 Herd of Modelshttps:/ IDE 集成tensorboard,grafana可观测性优化多部资源分配独占资源/公共资源任务抢占任务排队gang调度策略bi

3、npack调度策略Megatron-LMDeepSpeedopensora分布式训练任务LLM 任务多模态任务数据处理单机单卡,单机多卡,多机多卡任务NVIDIAAscend纯 CPU 任务RoCE/IBGPU 切分如何解决Volcano介绍volcano 项是华为开源,CNCF 孵化项。依照 AI 作业特性,建新的资源抽象。弥补 Kubernetes 原不。持queue,持个 job 内多 task,更好的持批量作业持多种计算资源,包括但不限于CPU、GPU、NPU。持多种训练框架,tensorflow,pytorch,飞桨等持多种调度策略,并且持多种调度策略组合,较重要的有gang,pri

4、ority,binpack,drf等。并且兼容 kubernetes 原调度策略,例如镜像感知。易-vcjob更好的批处理作业个 vcjob 包含多个 task,每个 task 是不同的,个 task 包含多个 podtask1 和 task2 可类与 tensorflow 的 ps/worker插件ssh:pod ssh 免密env:创建 pod 索引的环境变量svc:为 vcjob 创建 svc 和 networkpolicyPytorch:开启 svc 插件,打开端,在 pod 中创建 ytorch 使的环境变量Mpi:强制开启 svc、ssh,打开端Tensorflow:开启 svc

5、插件,打开端,在pod中 创建 Tensorflow 使的环境变量易-jobflow持 vcjob 作业流种轻量级的 argo workflow 替代持多种运条件(ongoing)易-queue&podgroupqueuequeuequeuejobjobjobjobjobjobnodenodenodenode多队列持队列内作业抢占队列间队列抢占队列配额按权重划分资源层级队列(ongoing)volcanovcjobdeploymentstatefulsetpodgrouppodpodpod持将其他 Kubernetes 作负载转换为 podgroup,使 volcano 调度易-调度策略-ga

6、ngJob AJob B故障处理-检测&修复软硬件故障不可避免 动检测 尝试修复故障处理-作业重试作业动重试RunningRunningRunningRunningRunningFailureRunningRunningcordonRunningcordonRunningRunningRunning故障节点拉黑动重试效率提升-binpack&task-topologybinpackTask-topologymasterworkermasterworker效率提升-抢占&昇腾优

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(optimize-llm-workflows-with-smart-infrastructure-enhanced-by-volcano-chuan-hui-volcanozha-xia-27dya-shi-llmxiao-xin-li-qihoo360-xuzheng-chang-huawei-cloud-technologies-co-ltd.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠