1、何万青阿里云高性能计算总监阿里云高性能计算总监阿里云弹性高性能计算E-HPC:一站式并行开发与优化云上开发新时代,codecode up!up!何万青何万青HPC概念及发展趋势高性能计算高性能计算(High Performance Computing)(High Performance Computing)是计算机科学的一个分支。主要聚焦于解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等等。构建高性能计算系统的主要目的就是提高运算速度,要达到每秒万亿次级的计算速度,对系统的处理器、内存带宽、运算方式、系统I/O、
2、存储等方面的要求都十分高,这其中的每一个环节都将直接影响到系统的运算速度。10 PFlops1 PFlops100 TFlops10 TFlops1 TFlops100 GFlops10 GFlops1 GFlops100 MFlops100 PFlops10 EFlops1 EFlops100 EFlops1993201719992005201120231 ZFlops2029医疗图像基因研究预测天气预报中国超算24年2015:云计算落地2010:国家超算中心2005:集群普及2000:集群出现1995:MPP大型机2017:阿里云超算阿里云3招拆解超算上云障碍基于Virtualizatio
3、n 2.0的ECS弹性裸金属服务器低延迟RDMA50Gb 网络阿里云并行文件系统NAS/CPFS(Lustre*)ECS弹性裸金属服务器 无硬件性能/特性损失 硬件隔离/独占超级计算集群SCC弹性资源快速服务部署,横向扩展和热迁移运维自动化统一服务接口面向“大计算”设计的弹性基础设施CPUGPU内存网络带宽网络延迟96 核8xv100384GB50Gb2.0s最高配置的单一实例一张图描述E-HPC从传统超算到云超算,将云服务整合为HPC集群图形节点头节点计算节点客户PC超算中心或线下机房图形化的作业前后处理(可选)用户与资源管理、作业调度并行运行HPC作业文件存储保存作业数据LAN远程桌面访问
4、,或直接本地进行前后处理图形节点登录节点与管理节点计算节点客户PC图形化的作业前后处理(可选)远程登录、用户资源管理、作业调度并行运行HPC作业文件存储保存作业数据VPC客户云上HPC集群EIPWANGPU实例云图站ECS实例NASOSSSCC/ECS/GPU/FPGA实例弹性伸缩作业管理资源管理软件部署OpenAPI性能监控阿里云E-HPC服务E-HPC管控服务Region化部署E-HPCAgentE-HPCAgentE-HPCAgentE-HPCAgentE-HPCAgentE-HPCAgent一键创建集群E-HPC控制台E E-HPCHPC环境搭建、部署与使用开通并创建NAS硬件配置软件
5、配置部署集群01020304控制台提交作业命令行提交作业作业模版管理OSS数据导入任务提交和数据导入性能大盘节点/进程性能性能剖析集谛性能分析工具配置自动伸缩服务自动伸缩实例远程可视化弹性伸缩和可视化VPC服务(虚拟专用网络)OSS服务(对象存储)云监控服务HPC软件部署运行监控云桌面服务结果展示E E-HPCHPC让云超算强大易用让云超算强大易用虚拟交换机EIP服务(公网IP)文件存储服务(共享文件系统)安全组/云盾登录节点管控节点M计算节点NAlibaba Cloud E-HPCE-HPC控制台资源管理作业管理日志报表应用软件:GROMACS/LAMMPS/NAMD/GAUSSIAN提交作
6、业查看结果高性能运行时支撑:MPICH/OpenMPI/BLAS/Boost/CUDA开发与调试工具:GNU(gcc/g+/gfortran)/Autotools(autoconf)筛选适合HPC的机型:SCC/CPU计算型/GPU计算型/FPGA/网络增强型作业调度器:PBS/Slurm/GridEngine按量付费:按量付费:精确到小时的付费粒度,按需使用随时释放包年包月:包年包月:按周/月/年预付费,长期使用成本大减竞价实例:竞价实例:低至1折,至少保持1小时可用时长多部署模式多部署模式:高可用,简易模式,OneBox模式集群停机不收费集群停机不收费一键一键:一键启动集群,一键修复异常集