首页 » 亚马逊云科技解决方案 » 智慧教育 » 云上科研实验室 » 计算密集型高性能集群解决方案
计算密集型高性能集群解决方案
此亚马逊云科技解决方案有何用途 ?
该方案为科研客户提供了弹性且可扩展的云基础设施、强大的编排工具和高级服务,可以轻松快速地部署和操作复杂的基于云的 HPC 系统。该方案使用 Amazon EC2 丰富的计算实例类型,可以与特定工作负载的特征相匹配,还可以利用专为 HPC 工作负载构建的高性能存储和网络选项。这意味着研究人员可以超越本地 HPC 基础设施的限制进行创新,从而实现横向扩展的应用程序。目前全球多家高校和研究机构都把不同学科的 HPC 工作负载运行在亚马逊云科技上,例如计算流体力学、合成生物学、基因组学、计算化学、金融风险建模和计算机辅助工程等。
方案优势
快速部署
几分钟内启动 HPC 集群,快速响应不断变化的业务需求。
计算弹性
HPC 系统可以从一个计算节点起步,延伸到 100 万个或更多核,迅速缩短获得结果的时间。
配置的灵活性
基于云的 HPC 可以由不同计算实例混合组成,满足各种应用程序和工作负载需求。
HPC 专业工具和服务
亚马逊云科技提供了一系列专门为支持 HPC 工作负载而设计的服务,例如
Amazon Batch、
Elastic Fabric Adaptor(EFA) 低延迟网络、
Amazon FSx for Lustre 和
DCV,并使用
Amazon ParallelCluster 等工具来设置和运行您的 HPC 集群。
亚马逊云科技解决方案概述
方案架构图如下(可单击放大查看):
计算密集型高性能集群解决方案架构图
单击以放大
本解决方案的架构图如上所示:
- Amazon ParallelCluster 是亚马逊云科技支持的开源集群管理工具,可以方便用户轻松地部署和管理高性能计算(HPC)集群。Amazon ParallelCluster 利用纯文本配置文件来指定基础结构,然后使用 python 命令(pcluster-PyPI)应用此配置文件创建和配置集群。
- Amazon ParallelCluster 支持多个调度程序,该解决方案采用了 Slurm,自动创建 ParallelCluster 的 Head Node,HPC 工作任务会向 Head Node 进行发布,ParallelCluster 会根据任务要求自动创建 Compute Node 完成任务的执行。
- 该解决方案采用 Amazon FSx for Lustre 作为高性能存储,Head Node 和 Compute Node 可以共享该存储,应用程序可以将数据存储到 Amazon FSx 上。
- Amazon ParallelCluster Manager 作为 Amazon ParallelCluster 的可视化管理工具,可以对 HPC 任务进行交互式的配置、运行和监控。目前 Amazon ParallelCluster Manager 只支持在 Global Region 进行部署。
- Amazon ParalelCluster 的 HeadNode 可以通过命令行以及 DCV 两种模式进行访问,其中 DCV 是图形化界面的访问形式。
计算密集型高性能集群解决方案
版本 1.0.0
上次更新日期:2022 年 5 月
作者:亚马逊云科技
预计部署时间:20 分钟