1、阿里云异构计算平台阿里云异构计算高级专家 龙欣 加速AI智能创新议 程/异构计算异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,常见的计算单元类别包括CPU、GPU、FPG、ASIC等。议 程/异构计算的云上格局 人工智能芯片格局:GPU、FPGA、ASIC三分天下基于云的应用框架 发展趋势-计算能力需求越来越高-串行计算-并行计算-多机多卡分布式并行-片外存储-片上存储-内存带宽越来越高(DDR-HBM1-HBM2)-GPU-FPGA-ASIC,性能功耗比越来越高科学计算气象预测、油藏模拟基因工程、计算金融图形图像影视渲染、3D设计视频转码FPGA F1Intel
2、A10*2FPGA F2XILINX KU115*2GN4NvidiaM40*2GN5NvidiaP100*8GN6NvidiaV100*8GA1AMDS7150*4阿里云全新一代异构计算加速引擎全貌面向多场景的异构计算加速平台机器学习人脸识别、视频识别、车辆识别自动驾驶、机器翻译GN5iNvidiaP4*2FPGA F3XILINXVU9P*16议 程/GPU适用的领域及业务场景视频大规模视频转码高清,4K/8K直播多人视频会议视频信号处理图像工程设计非线性编辑远程教育3D展示深度学习图像处理图像识别语音识别视频内容鉴别片源修复计算影视动画渲染数字图像处理计算金融科学计算 3D渲染-Dire
3、ct X-OpenGL-Vulkan 视频编解码-DXVA/LibVA-NVEnc/VCE 计算-OpenCL-CUDAGPU的特点:实时高速、并行计算、浮点计算能力强议 程/AI深度学习催生GPU服务需求人脸识别OCR文字识别语音识别与合成自然语言理解与交互GPU资源如何快速扩容?哪有可用的GPU资源?如何多地域线上服务?GPU还正常工作吗?GPU如何满足训练和推理的需求?议 程/弹性GPU服务(Elastic GPU Service EGS)EGS是基于GPU应用的弹性计算服务,适用于深度学习、视频转码、图形渲染、科学计算等应用场景,具有实时高速,并行计算跟浮点计算能力强等特点。深度学习视
4、频解码图形渲染科学计算EGS议 程/EGS具备与阿里云生态深度整合能力云监控弹性伸缩负载均衡资源编排日志服务容器服务NAS文件存储弹性GPU服务高效SSD云盘EMROSS对象存储议 程/基于容器的弹性GPU服务一键式部署OSS对象存储一键部署集群支持GPU资源调度挂载共享存储负载均衡CPU、GPU监控日志管理解决方案控制台集群管理、任务调度TensorBoardgpu0/gpu1Tensorflow应用gpu0/gpu1MXNet应用Docker Engine弹性GPU服务镜像Hubgpu0Tensorflow应用gpu0MXNet应用Docker Engine弹性GPU服务议 程/配置弹性G
5、PU服务监控 创建弹性GPU服务集群 登录云监控查看节点 选择节点监控图标议 程/配置弹性GPU服务监控提供节点级别资源监控,其中包括CPU使用率、网络流量、GPU使用率、GPU显存使用率和温度等监控信息议 程/EGS产品家族可视化计算实例GA1共享GPU提供更细粒度的GPU实例,降低使用门槛和成本GA1独享GPU更佳的可视化计算性能保证通用计算实例GN4独享GPU通用计算实例GN5独享GPU兼顾深度学习和高性能计算的强大算力GN5i独享GPU专为深度学习推理在线服务定制的实例议 程/GA1 可视化计算型 GA1实例规格族是企业级异构计算ECS,提供了高性价比的渲染和视频处理能力 特性:用户场
6、景:需要开启4队列,操作系统(镜像)CentOS 7.3,调整队列可能需要重启实例需要开启3队列,操作系统(镜像)CentOS 7.3,调整队列可能需要重启实例网络性能持续提升中需要开启2队列,操作系统(镜像)CentOS 7.3,调整队列可能需要重启实例-AMD S7150 GPU计算卡-Intel Xeon E5-2682v4(Broadwell),2.5GHz-DDR4 内存-包含一块NVMe SSD本地盘存储-共计 32GB 的 GPU显存、总计提供8192个并行处理核心、15 TFLOPS(单精度浮点运算处理能力)和1(4x250G)TFLOPS(双精度峰值浮点性能)-3D图形渲染,