2020年终大会-机器学习平台：13-1.pdf

上传人： li

编号：29905

2020-12-01

PDF 15页 1.54MB

《2020年终大会-机器学习平台：13-1.pdf》由会员分享，可在线阅读，更多相关《2020年终大会-机器学习平台：13-1.pdf（15页珍藏版）》请在三个皮匠报告上搜索。

1、CPU Node GPU Node GPU Node CPU Node XIAOMI CloudMl Model Trainnig Model Inference Thetis MIG Grid MPS cGPU vCuda Orion/vir taitech 减少资源浪费提高集群的GPU任务量吞吐减少任务排队时间实现方式不同 vGPU实现的层次不同适用场景不同优点：上手容易，实现简单缺点：没有算力以及显存隔离适用场景：测试集群，模拟GPU资源 https:/ 优点：共用Cuda Context，减少切换时间实现空间上的并行处理缺点：同一个Cuda Context中

2、的任务出现错误会互相影响，没有强隔离场景：MPI 类任务，小模型任务。 https:/ 优点：适用于虚拟机，强隔离缺点：不适用容器试用场景：虚拟化平台 https:/ 优点：强隔离，软硬件支持缺点：昂贵、无法兼容老机型、显存和算力大小无法定制试用场景：新集群、小模型 https:/ 优点：实现了显存和算力隔离，可以任意划分支持软隔离缺点：影响应用运行时环境试用场景：容器平台 https:/ 优点：实现算力及显存的隔离不侵入应用运行时环境缺点：影响Nvidia Driver，维护困难试用场景：阿里云 https:/ GPU Node GPU Nod

3、e GPU Node GPU Node GPU Node GPU Node Kubelet GPU Node K8S Master Scheduler GPU 0 Idle GPU 2 Idle GPU 1 Idle GPU n Pod CPUMemory https:/ K8S Master Scheduler GPU Node CPU Node Orion Controller Scheduler GPUvGPU GPU Node GPUvGPU GPU Node GPUvGPU GPU Node GPUvGPU CPU Node CPU Node CPU Node apiVersionapiVersion: v1 kindkind: Pod specspec: Resource: requests: CPU、Mem、 GPU vGPU Pod 1. 应用的服务质量保证 2. 不侵入用

2020年终大会-机器学习平台：13-1.pdf

相关报告