华为云 王雷博-基于Volcano的云原生AI基础设施落地实践-v2.pdf

编号:155785 PDF 23页 4.55MB 下载积分:VIP专享
下载报告请您先登录!

华为云 王雷博-基于Volcano的云原生AI基础设施落地实践-v2.pdf

1、基于基于VolcanoVolcano的云原生的云原生AIAI基础设施的落地实践基础设施的落地实践王雷博王雷博 华为云容器服务架构师华为云容器服务架构师个人简介个人简介 王雷博,华为云容器服务架构师,CNCF Volcano开源项目负责人。负责华为云容器调度系统、混部系统、FinOps体系构建。目录目录 云原生AI基础设施面临的挑战 Volcano项目介绍 基于Volcano的AI基础设施实践人工智能发展趋势:人工智能发展趋势:AIAI创新加速、创新加速、ChatGPTChatGPT发布引发革命发布引发革命ChatgptChatgpt及及StableDiffusionStableDiffusio

2、n加速加速AIGCAIGC进入拐点进入拐点2016年DeepMind围棋各个软件用户数达到各个软件用户数达到100100万所用的时间万所用的时间2018年 Google BERT2019年 DeepMindAlphaStar 游戏2019年 OpenAIGPT-32021年 DeepMindAlphaFold2 蛋白质结构2022年 OpenAIChatGPTAIGC(AI Generated Content)是指使用人工智能技术自动或辅助地生成或编辑文本、音频、视觉等数字内容,也被称为生成式AI。它涉及无监督和半监督学习算法,AIGC是人工智能技术从感知、认知到创造的延伸。人工智能面临的挑战

3、人工智能面临的挑战AIAI任务性能依赖高性能的调度器任务性能依赖高性能的调度器相对于微服务,训练任务更复杂,涉及多个不同角色的进程调度、并行以及协同;大规模集群调度吞吐率亟待提升精细化的管理和调度异构资源,实现分时复用批量调度策略、弹性调度、抢占、优先级、支持多种AI训练框架通过对应用的感知、硬件拓扑(Nvlink、HCCS、Switch、NUMA)的感知,提供智能调度,提升作业性能大大模型训练严重依赖高性能网络:模型训练严重依赖高性能网络:AI算法模型参数量呈指数级上升,大模型不断涌现,训练大模型需要分布式多卡协同;节点内模型并行,依赖NVLink高速链路承载前向和反向过程中产生的巨大通信量

4、;节点间采用流水线+数据并行,采用节点点的高性能网络设备(IB、RDMA、高性能交换机)、集合通信库(HCCL、NCCL)以及动态路由规划随着集群内节点和Pod 数量的增加,一般CNI网络插件难以满足所需的吞吐量吞吐量。因此需要高性能的容器网络 AIGCAIGC大模型、自动驾驶等催生大规模算大模型、自动驾驶等催生大规模算力需求:力需求:目前AI训练所需算力增长规律是大约每隔3-4月翻倍,而半导体摩尔定律是18个月翻倍,全球算力有告罄风险;ChatGPT训练算力需要1wA100卡月,推理场景4816卡常备,单次训练成本1000w美金2.AIGC提速降本是刚需,如Colossal-AI:AIGC大

5、模型加速方案一行代码,提速6.4倍,成本降低85%3.自动驾驶训练、仿真计算,如Tesla FSD 训练:1w A100卡,标注:4k A100卡全球数据中心普遍资源利用率不高:全球数据中心普遍资源利用率不高:据 Gartner 统计,企业CPU平均使用率不足15%15%,GPU使用率也不理想,造成集群利用率低的原因有多种;资源碎片化:大数据/AI如果使用独立资源池,资源需求会随着任务诉求有明显的波峰波谷资源配置不合理:训练任务资源使用情况难以预测,申请资源时具有盲目性,通常申请过量资源资源调度不均衡:节点GPU/NPU资源耗尽,导致服务器上CPU资源出现严重空闲导致浪费GPU任务通常会交替使

6、用CPU和GPU,当CPU计算成为瓶颈时,GPU资源会出现浪费算力需求算力需求任务调度任务调度高性能高性能网络网络算算力利用率力利用率云原云原生基础设施成为生基础设施成为AIAI的主流选择的主流选择核心价值核心价值统一的异构资源管理:统一的异构资源管理:Kubernetes支持高效的管理异构算力资源、高性能网络;利用云原生分布式云技术,轻松实现云、边、端侧异构资源的统一管理和调度;资源资源利用率利用率高:高:容器技术与底层共享操作系统,性能更加优良,系统负载更低,在同等条件下运行更多的应用实例,更充分地利用系统资源;丰富的生态软件:丰富的生态软件:Kubernetes生态提供了丰富的训练、推理

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(华为云 王雷博-基于Volcano的云原生AI基础设施落地实践-v2.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠