发布于: Jul 23, 2021

在云上进行高性能计算的客户越来越多,利用云计算资源充足、按需使用、弹性伸缩的特点,客户不仅能快速的得到结果,而且成本很低。为了让客户能快速的部署高性能计算集群,亚马逊云科技推出了开源的ParallelCluster 集群管理软件,该软件可以让客户在数分钟之内部署一个高性能计算集群。ParallelCluster支持Torque、Slurm、SGE等调度引擎,集群的大小可以根据任务数量动态伸缩,而且支持SPOT实例,能最大程度的帮助客户降低成本。

在某些高性能计算场景中,客户会同时使用到CPU实例和GPU实例,这样就需要创建两个ParallelCluster集群,比如,一个是c5.xlarge集群和一个p3.2xlarge实例集群。并且客户的程序通常运行在一个主节点上,这就要求可以在一个主节点上提交任务到任意集群。而ParallelCluster 则要求到两个集群的主节点上分别提交任务,这种情况下,如果客户要使用ParallelCluster ,必须需要修改程序,不仅耗时耗力,而且需要改变用户原来的使用习惯,很难快速使用起来。

Slurm +ParallelCluster 多集群解决方案,在两个ParallelCluster集群前面增加一个管理节点,通过该管理节点可以提交任务到任意集群,这样,客户的程序可以运行在管理节点上,不需要做任何改变。

Slurm +ParallelCluster多集群架构如下:

该方案把两个ParallelCluster集群的Slurm accounting信息存储在一个独立的管理节点(SlurmDBD所在节点)上,并保存在MySQL数据库中,这样在管理节点可以提交任务到任意的集群上。

以下是Slurm +ParallelCluster多集群方案详细配置步骤,主要包含以下几个步骤:

  • 使用ParallelCluster创建两个slurm集群,两个集群通过EFS共享数据
  • 创建并配置Slurm管理节点
  • 注册第一个ParallelCluster集群到管理节点
  • 注册第二个ParallelCluster集群到管理节点
  • 检查配置并提交测试任务

相关文章