发布于: Jul 23, 2021
在云上进行高性能计算的客户越来越多,利用云计算资源充足、按需使用、弹性伸缩的特点,客户不仅能快速的得到结果,而且成本很低。为了让客户能快速的部署高性能计算集群,亚马逊云科技推出了开源的ParallelCluster 集群管理软件,该软件可以让客户在数分钟之内部署一个高性能计算集群。ParallelCluster支持Torque、Slurm、SGE等调度引擎,集群的大小可以根据任务数量动态伸缩,而且支持SPOT实例,能最大程度的帮助客户降低成本。
在某些高性能计算场景中,客户会同时使用到CPU实例和GPU实例,这样就需要创建两个ParallelCluster集群,比如,一个是c5.xlarge集群和一个p3.2xlarge实例集群。并且客户的程序通常运行在一个主节点上,这就要求可以在一个主节点上提交任务到任意集群。而ParallelCluster 则要求到两个集群的主节点上分别提交任务,这种情况下,如果客户要使用ParallelCluster ,必须需要修改程序,不仅耗时耗力,而且需要改变用户原来的使用习惯,很难快速使用起来。
Slurm +ParallelCluster 多集群解决方案,在两个ParallelCluster集群前面增加一个管理节点,通过该管理节点可以提交任务到任意集群,这样,客户的程序可以运行在管理节点上,不需要做任何改变。
Slurm +ParallelCluster多集群架构如下:
该方案把两个ParallelCluster集群的Slurm accounting信息存储在一个独立的管理节点(SlurmDBD所在节点)上,并保存在MySQL数据库中,这样在管理节点可以提交任务到任意的集群上。
以下是Slurm +ParallelCluster多集群方案详细配置步骤,主要包含以下几个步骤:
- 使用ParallelCluster创建两个slurm集群,两个集群通过EFS共享数据
- 创建并配置Slurm管理节点
- 注册第一个ParallelCluster集群到管理节点
- 注册第二个ParallelCluster集群到管理节点
- 检查配置并提交测试任务
相关文章