华为:2024大模型混合云十大创新技术白皮书5.0(55页).pdf

编号:612513 PDF  DOCX 55页 3.43MB 下载积分:VIP专享
下载报告请您先登录!

华为:2024大模型混合云十大创新技术白皮书5.0(55页).pdf

1、践行深度用云大模型混合云十大创新技术华为云计算技术有限公司尚海峰 尤 鹏 胡玉海 李金锋徐 强 杨志勇 王 飞 徐 俊曹 朝 王 晨 徐礼锋 许田立 王 立 王 宁 韩 坤 马 奇 徐 田 袁军红 李品新 马红伟罗 翕 麦宇庭 唐盛军 孙思东 党致远 黄 立王志宇 蒋东生 赵培森 王兴昊 刘 静 赵 军 曾祖祥 王荣仕 毛金哲 张 煜 张秦涛 吴信威 金 钊 蒋昱鑫 王 冰 朱 艺 徐 航王 瑞编制委员会P R E P A R A T I O N C O M M I T T E E主 编 单 位编 委 顾 问编 审 组 成 员参编主要专家责 任 编 辑(排名不分先后)目录DIRECTORYAI

2、-Native存储14-18创新三层架构,数据快存快恢3算子加速24-28融合优化,实现高效算子供应5增强AI网络19-23算网协同,高吞吐无阻塞网络4多样性算力调度05-09全局统筹,提升算力效率1云边协同10-13海量边缘管理,模型边用边学27统一数据编码35-38创新多模数据统一编码,预测最优解安全护栏47-54立体检测,智能拦截精细视觉神经网络 39-42对齐细节,精准识别810无感断点续训43-46分钟级感知恢复,保障长稳运行96全链路数据工程 29-348大创新工具,构建高质量数据集多样性算力调度全局统筹,提升算力效率06在AI场景中,CPU扮演着指挥统筹与核心控制的角色,GPU/

3、NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性与长期可获得性,以x86和ARM为代表的通用算力和以GPU和NPU为代表的AI算力,将长期协同发展与配合使用,因此需要考虑异构算力的统一调度问题:异构算力管理的挑战资源管理:集群管理的资源从通常的CPU+内存,变为CPU+内存+AI算力卡等多种异构硬件管理。除了多种型号的AI算力卡、同型号多代AI算力卡、还有整卡与切分卡的统一管理调度。拓扑感知:大模型分布式训练过程中,AI算力卡之间或AI服务器之间的带宽并不完全一致。因此调度时,必须考虑异构资源的拓扑关系,才能获得最佳的训练效率。分布式训练调度的挑战资源争夺冲突死锁:传

4、统容器调度逻辑都是按照单个容器依次调度。而分布式AI训练容器必须同时运行以进行集合通信,且只能同时调度成功或调度失败。否则,多个分布式作业在资源调度层面出现争抢并导致死锁,所有训练任务都无法得到有效调度。1.1 业界难题AI资源碎片问题:单个训练/推理作业所需要的AI算力卡数典型值为1、2、4、8、n*8,大于8卡的作业,需运行在完全空闲的节点上。随着多个任务的异步结束,集群中会出现资源碎片,即便整体上存在足够的资源,需要多卡的作业也无法运行,导致资源利用率降低。推理算力利用率提升的挑战AI算力多团队共享问题:集团内部需要考虑不同部门多个彼此隔离的AI小集群可能导致的整体资源利用率较低的问题,

5、资源池化按需调度是提升资源利用率的有效办法。算力复用:在推理场景,需要实现推理卡的多路任务并行复用,即多个算法共用一张AI卡,以提升算力利用率。华为云多样性算力调度基于云原生集群管理框架,并融入面向AI场景的Volcano调度框架,实现分布式AI任务调度增强。同时还针对算力资源的利用率提升做了系列创新优化,包括:逻辑子池、队列优先级、拓扑感知、整柜亲和、算力切分等。1.2 多样性算力调度:全局统筹,提升算力效率多样性算力调度训练&推理任务CPU资源池丰富调度策略高效任务调度模型推理模型训练模型开发模型训推调度策略模块调度控制模块资源调度容器调度图1.1 华为云多样性算力调度统一纳管异构算力资源

6、CPUAI任务实例GPUAI任务实例NPUAI任务实例通用服务器节点1CPU通用服务器节点2CPUCPUAI服务器节点4AI服务器节点5NPUNPUNPUNPUGPU资源池AI服务器节点3NPU资源池GPUGPU多样算力资源池化传统的K8s集群管理系统在启动容器时,会将负载调度至合适的节点。但其调度的维度仅支持“CPU+内存”,无法识别和调度“GPU/NPU”这种异构算力资源。07因此华为云引入了K8s的Device-plugin调度插件框架,并开发了AI异构算力插件,实时获取和上报各异构资源池中AI算力的状态,辅助完成异构算力的混合调度。如常见的推理任务会包含LB负载均衡(通用算力调度)、A

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(华为:2024大模型混合云十大创新技术白皮书5.0(55页).pdf)为本站 (竹蜻蜓) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠