《2019年大规模GPU虚拟化技术在讯飞AI业务中的应用.pdf》由会员分享,可在线阅读,更多相关《2019年大规模GPU虚拟化技术在讯飞AI业务中的应用.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、大规模GPU虚拟化在讯飞AI业务上的实践虚拟化团队负责人目录 讯飞AI业务的发展 GPU虚拟化技术 异构资源管理 业务落地方案与实践讯飞AI业务的发展语音识别语音合成人脸识别语义理解场景识别物体识别个性化2018年6月12日识别准确率提高至98%2018年07月14日Blizzard Challenge 十三连冠识别率高达99.4%自然语言各项指标名列前列全球领先的通用物体检测算法,有效检测图像中2万多种生活常见物体精准识别自然环境下数十种场景个性化定制场景高到171项讯飞AI业务整体架构AI云平台用户管理任务接入任务编排个性化管理AI引擎平台集群管控资源管控个性化系统形成标准协议向下传递 业
2、务突增,拥有开发者90W+平均日服务量,达40亿人次随之带来的 资产规模扩大,管理混乱 资源分配不均匀 资源利用率较低 成本倍增(尤其是cpu切换为gpu设备后)讯飞AI业务发展痛点2015年 GPU全天平均利用率48.6%目录 讯飞AI业务的发展 GPU虚拟化技术 异构资源管理 业务落地方案与实践GPU虚拟化技术-协议传递VM/ContaineropenGL/Direct3D RedirectorGuestRPC EndpointopenGL/Direct3DGPU DriverGPU HardwareHosthardware前置api接口内嵌虚拟机/容器Rpc调用传到命令和参数到内核库内存
3、库调用驱动,最终调用硬件设备处理请求GPU虚拟化技术-协议传递缺点 资源隔离差 多次中断切换,效率差 高性能计算下,性能损耗验证优点 无需定制 无硬件要求 简单方便 小规模压力下,性能表现较好 业务无感知可任意迁移GPU虚拟化技术-设备透传VM/ContainerGPU DriverPass-through GPUHypervisorGPU HardwareVT-DGuestHostHardwareDMAMMIOIROPCIVt-d技术通过IOMMU实现DMA,使设备地址映射到内存中,供用户态程序访问通过MMIO设备实现设备内存空间的直接读写设备终端直接传递至虚拟机内,实现PCI透传GPU虚拟
4、化技术-设备透传缺点 独占资源 不宜迁移 需要硬件进行支持优点 隔离性好 性能损耗低于10%Nvidia vGPUVMGPU DriverPass-through VGPUHypervisorGPU HardwareGuestHostHardwareNvidia gpu managerinterfaceschedulervGPUdecodeencodeDMA通过VFIO获取PCI设备操作权限虚拟化层内嵌GPU管理程序完成资源分配和设备管理硬件层完成GPU的虚拟化,设备按显存规格切分成不同大小的虚拟设备Nvidia vGPU缺点 资源隔离不完全 需要硬件进行支持优点 一虚多,资源合理利用 高性能
5、计算下,性能损耗低于15%可用于各个业务场景,兼容性好GPU虚拟化-模拟设备VMGPU DriverDevice EmulationHypervisorGPU HardwareGuestHostHardwareMdevVFIOVFIO-Mdev FrameworkDriver Interface实现1、基于4.10内核添加GPU驱动程序2、基于VFIO-Mdev生成中间的mediated device3、mediated device提供用户态的接口,操作Mdev Bus3、通过Mdev注册管理Pdev和Mdev4、VFIO通过IOMMU管控控制设备IO5、虚拟设备透传入虚拟机或者容器中GPU
6、虚拟化-模拟设备缺点 资源隔离不完全 对内核版本要求较高 维护难度高,需要进行驱动和内核定制开发 性能相较VGPU方案,损失较大优点 一虚多,资源合理利用 高性能计算下,性能损耗25%可用于各个业务场景 兼容性好 基于VFIO,可统一设备驱动接口总结协议透传设备透传VGPU模拟设备透传GPU利用率由48.6%提升至72%GPU利用率由72%提升至96%目录 讯飞AI业务的发展 GPU虚拟化技术 异构资源管理 业务落地方案与实践异构资源管理GPU节点AgentGPU HardwareRPCcontrol分布式消息中间件APIschedulerDataset