《2020年终大会-机器学习平台:13-1.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-机器学习平台:13-1.pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、CPU Node GPU Node GPU Node CPU Node XIAOMI CloudMl Model Trainnig Model Inference Thetis MIG Grid MPS cGPU vCuda Orion/vir taitech 减少资源浪费 提高集群的GPU任务量吞吐 减少任务排队时间 实现方式不同 vGPU实现的层次不同 适用场景不同 优点: 上手容易,实现简单 缺点: 没有算力以及显存隔离 适用场景: 测试集群,模拟GPU资源 https:/ 优点: 共用Cuda Context,减少切换时间 实现空间上的并行处理 缺点: 同一个Cuda Context中
2、的任务出现错误会互相影响,没有强隔离 场景:MPI 类任务,小模型任务。 https:/ 优点: 适用于虚拟机,强隔离 缺点: 不适用容器 试用场景: 虚拟化平台 https:/ 优点: 强隔离,软硬件支持 缺点: 昂贵、无法兼容老机型、显存和算力 大小无法定制 试用场景: 新集群、小模型 https:/ 优点: 实现了显存和算力隔离,可以任意划分 支持软隔离 缺点: 影响应用运行时环境 试用场景: 容器平台 https:/ 优点: 实现算力及显存的隔离 不侵入应用运行时环境 缺点: 影响Nvidia Driver,维护困难 试用场景: 阿里云 https:/ GPU Node GPU Nod
3、e GPU Node GPU Node GPU Node GPU Node Kubelet GPU Node K8S Master Scheduler GPU 0 Idle GPU 2 Idle GPU 1 Idle GPU n Pod CPUMemory https:/ K8S Master Scheduler GPU Node CPU Node Orion Controller Scheduler GPUvGPU GPU Node GPUvGPU GPU Node GPUvGPU GPU Node GPUvGPU CPU Node CPU Node CPU Node apiVersionapiVersion: v1 kindkind: Pod specspec: Resource: requests: CPU、Mem、 GPU vGPU Pod 1. 应用的服务质量保证 2. 不侵入用