黄坚-大规模智算集群的管理与性能调优实践.pdf

编号:177481 PDF 24页 5.23MB 下载积分:VIP专享
下载报告请您先登录!

黄坚-大规模智算集群的管理与性能调优实践.pdf

1、天翼云云网产品事业部研发专家 黄坚大规模智算集群的管理与性能调优实践演讲嘉宾介绍研发方向:研发方向:云原生、AI算力基础设施重点关注:重点关注:AI智算平台研发工作大规模智算集群的性能诊断和调优国产算力生态适配黄坚 天翼云研发专家目录大规模智算集群的痛点问题运维及管理实战思路和方案云骁智算平台及落地实践智算平台未来展望目录大规模智算集群的痛点问题大规模智算集群的痛点问题运维及管理实战思路和方案云骁智算平台及落地实践智算平台未来展望大模型分布式训练Ref:Megatron-LM:Training Multi-Billion Parameter Language Models Using Mode

2、l Parallelism模型并行大模型分布式训练模型并行流水线并行数据并行 计算密度大 显存要求高 通信占比大算力标准化程度非常高算力标准化程度非常高大规模智算大规模智算交付:交付:6 6阶阶5858步步2.15 压测报告解读2.14 硬件压测2.13 压测环境搭建2.12 序列号收集2.11 设备型号名检查2.10 厂商名检查2.9 BIOS密码配置2.8 BIOS配置项检查2.7 BMC配置2.6 BIOS配置2.5 固件升级2.4 配置项梳理2.3 设备上电2.2 保压测试2.1 设备安装与上架3.16 线缆检查3.15 OS配置项检查3.14 磁盘阵列配置3.13 HPFS OS安装

3、3.12 DPU 网络配置3.11 DPU rshim安装3.10 NPU网络配置3.9 NPU软件栈安装3.8 普通网卡配置3.7 交换机配置校验3.6 ROCE交换机配置3.5 业务交换机配置3.4 Raid卡驱动升级3.3 网卡驱动安装3.2 NPU OS安装3.1 管理交换机配置4.6 集群模型训练测试4.5 集合通信测试4.4 单机模型训练测试4.3 综合测试项整改4.2 单机综合测试4.1 配置检查5.3 网络参数调整优化5.2 性能瓶颈分析5.1 物理链路检查6.12 软集完成6.11 软集问题整改6.10 软集验收组验收6.9 云调结单6.8 专业组验收项整改6.7 专业组验收

4、6.6 自动验收通过6.5 自动验收项整改6.4 自动化预验收6.3 表格导入云调系统6.2 测试报告准备6.1 表格准备1.6 LLD输出1.5 集成方案输出1.4 集成规范解读1.3 初始化要求获取1.2 IP资源获取1.1 设计文档获取LLDLLD设计设计1 1安装与初始化安装与初始化2 2部署调测部署调测3 3集群验证集群验证4 4集群优化集群优化5 5验收整改验收整改6 6需特别关注点关键节点难点智算集群工程化交付大集群等于大算力?AI算力 3000P+根光纤个光模块张AI加速卡台AI服务器台网络交换机台存储服务器 智算中心智算中心MTBFMTBF平均任务稳定运行时长低时长低MTTR

5、MTTR故障恢复时间相对长相对长最大程度发挥算力的挑战 挑战1:智算业务与底层算力高耦合 挑战2:故障发现及性能调优,无法依托单一指标 挑战3:百万器件管理复杂度高目录大规模智算集群的痛点问题运维及管理实战思路和方案运维及管理实战思路和方案云骁智算平台及落地实践智算平台未来展望集群性能-单机配置正确性检查加速卡驱动网卡驱动nvidia-fabric-managernvidia_peermemGPU拓扑GPU主频PM模式CUDA/CANN版本NCCL/HCCL版本pytorch版本transformer版本deepspeed版本megatron版本集群性能-集群软硬件一致性 加速卡驱动 网卡驱动

6、 内核版本 操作系统 CPU配置 内存配置 RDMA网卡配置 RDMA网卡命名 业务面网卡 服务器存储挂载点 CUDA/CANN版本集群性能-健康检查加速卡健康检查HBM健康检查加速卡残留进程RDMA端口状态RDMA网络连通性leaf-spine网络链路闪断根目录可用量容器空间容量防火墙状态CPU健康检查内存容量检测业务网口状态检查解决硬件异常问题集群稳定性-算力网络拓扑展示裸金属裸金属交换机交换机交换机交换机服务器、交换机的告警染色的拓扑形态呈现随时随地了解智算集群健康状态训练任务的告警拓扑展示随时了解训练任务的

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(黄坚-大规模智算集群的管理与性能调优实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠