当前位置:首页 > 报告详情

黄坚-大规模智算集群的管理与性能调优实践.pdf

上传人: 张** 编号:177481 2024-10-01 24页 5.23MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了天翼云云网产品事业部研发专家黄坚在大规模智算集群的管理与性能调优方面的实践和研发方向。黄坚重点关注AI智算平台研发工作、大规模智算集群的性能诊断和调优以及国产算力生态适配。文章提到了大规模智算集群面临的痛点问题,如计算密度大、显存要求高、通信占比大等,并介绍了运维及管理实战思路和方案。此外,文章还详细阐述了云骁智算平台的功能和实践,以及智算平台的未来展望。云骁智算平台是一个集异构计算、高速存储、无损网络、算力加速和高效运营于一体的计算加速平台,可提供高性能算力底座、计算加速、故障诊断等服务。最后,文章提到了国产化智算基础设施平台的重要性和云骁智算平台在性能优化和故障诊断方面的优势。
"大规模智算集群如何实现性能优化?" "国产算力生态适配面临哪些挑战?" "云骁智算平台如何保障集群稳定性?"
客服
商务合作
小程序
服务号
折叠