当前位置:首页 > 报告详情

会议8_Sunfish 和 HPC 工作负载管理器的集成深度强化学习代理可组合分解资源调度.pdf

上传人: Ch****l 编号:171250 2024-07-03 26页 1.01MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了Sandia国家实验室开发的一种深度强化学习代理Sunfish,用于在可组合分散基础设施(CDI)中进行资源调度。Sunfish通过动态利用硬件资源(如CPU、GPU和内存)来减少“浪费”的资源,提高应用效率,并可能缓解内存不足、I/O争用、网络连接故障和硬件故障导致批处理作业失败的问题。Sunfish的核心服务包括资源库存管理、RESTful API、事件和日志记录、资源配置和网络配置等。此外,Sunfish还集成了BeeOND和智能资源调度器,以实现更高效的资源管理和调度。Sunfish通过与硬件代理的交互来执行硬件执行,并通过其核心服务来管理HPC系统。
什么是可组合分散基础设施(CDI)? Sunfish如何管理大规模HPC系统的资源? 如何将BeeOND、Sunfish和智能资源调度器集成在一起?
客服
商务合作
小程序
服务号
折叠