高性能计算是什么?

高性能计算 (HPC) 通常是指借助某个集群中的几台计算机或使用很多处理器构建的环境和计算系统,其基本网络拓扑和组织可以使用一个总线拓扑,可快速处理多个任务或单独一个耗时长的任务。同时由于网状网络在几台主机间潜伏期较短,可改善整体的网络性能。

高性能计算技术

高吞吐计算

高吞吐计算是指将需要处理的任务分解为多个相互独立的并行子任务进行处理。这种类型的高性能计算应用具有以下特点:

  • 将大型任务分解为大量的小型子任务进行并行处理
  • 各个子任务之间相互独立,不存在数据依赖关系
  • 基于海量数据进行搜索和模式识别
  • 互联网计算和大数据分析等应用通常属于这一类型

高吞吐计算的关键在于充分利用并行计算资源,最大化任务的并行度,从而提高整体的计算吞吐量。常见的高吞吐计算应用包括网页搜索、推荐系统、图像处理等,这些应用需要对海量数据进行高效处理和分析。

分布计算

分布式高性能计算属于 MIMD(Multiple Instruction/Multiple Data,多指令流多数据流)范畴,其特点是:

  • 将一个大型任务分解为多个紧密相关的子任务
  • 子任务之间需要大量的数据交换和通信
  • 各个子任务在不同的计算节点上并行执行
  • 子任务之间存在数据依赖关系,需要进行同步和协调

分布式计算的目标是通过多个计算节点的协作,解决单个节点无法独立完成的大规模计算问题。这种计算模式常见于科学计算、气象预报、流体动力学等领域,需要对大规模数据集进行复杂的并行计算。

与高吞吐计算相比,分布式计算对计算节点之间的通信和协调要求更高,需要高效的数据交换机制和任务调度策略。同时,分布式计算还需要解决容错、负载均衡等问题,以确保计算的可靠性和高效性。

高性能计算平台

高性能计算平台是一种专为高强度数据处理和计算密集型应用而设计的系统。它具有以下关键特性:

高性能计算平台采用高速互连技术,如 InfiniBand 和 OmniPath,实现节点间的高带宽、低延迟数据传输,满足大规模数据密集型应用的需求。

平台由大量计算节点组成集群,每个节点都配备了多核 CPU 和加速器(如 GPU),可提供海量并行计算资源。这种大规模并行计算架构非常适合于计算密集型任务。

高性能计算平台通常配备了并行文件系统,如 Lustre 和 GPFS,可提供 PB 级别的高带宽存储空间,满足大数据存储和访问需求。

高性能计算平台提供了作业调度、资源管理、并行编程环境等软件工具,简化了应用部署和运行。

高性能计算平台采用集群架构,将大量计算节点通过高速网络连接,实现资源共享和协同工作。

高性能计算平台广泛应用于通信密集型(如天气预报模拟)、数据密集型(如基因组学分析)和计算密集型(如石油勘探、分子动力学模拟)等领域。例如在石油勘探中,可利用高性能计算平台对地震波数据进行处理和分析,从而获取地下地质结构信息。

高性能计算解决方案

高性能计算是指利用并行处理技术来解决复杂计算问题的计算机系统。高性能计算解决方案通常分为四个层次:

第一层: 基础设施层

  • 以液冷和数据中心为主要组成部分、
  • 利用液冷技术为数据中心散热,从而降低整体能耗
  • 数据中心为高性能计算提供基础设施支持
第一层: 基础设施层

第二层: 硬件层

  • 包括网络、存储和计算硬件
  • 这些硬件组件构成了高性能计算系统的基础
  • 网络硬件确保高速数据传输
  • 存储硬件提供大容量、高速存储能力
  • 计算硬件(如 GPU、多核 CPU 等)提供并行计算能力
第二层: 硬件层

第三层: 软件层

  • 以集群管理和任务调度为核心
  • 集群管理软件负责高效利用底层硬件资源
  • 任务调度软件合理分配计算任务到不同节点
第三层: 软件层

第四层: 应用层

  • 针对特定领域的高性能计算应用
  • 例如气象监测、基因测序、搜索引擎等
  • 利用底层高性能计算能力加速应用运算

高性能计算解决方案的分层设计使得每个层次都能专注于自身职责,从而提高整体系统的性能、可扩展性和可维护性。通过这种分层架构,高性能计算可以广泛应用于科学计算、人工智能、大数据分析等诸多领域。

第四层: 应用层

如何构建高性能计算集群

高性能计算集群是一种将多个计算节点通过高速网络连接起来协同工作的系统,用于处理复杂的计算任务。构建高性能计算集群需要涉及系统管理、网络和安全、并行编程等多个领域的知识。

高性能计算集群由多个计算节点组成,每个节点通常包含 8 到 128 个 CPU。这些节点可以是同构的,即硬件和软件配置相同;也可以是异构的,配置各不相同。集群中节点的数量和配置将决定整个系统的总体计算能力。

网格中间件系统用于连接和管理集群中的计算资源,允许用户根据需求提交作业并访问集群的处理能力。中间件提供了统一的接口,使用户能够有效利用集群的整体计算能力。

负载均衡是高性能计算集群的一个关键方面,计算工作负载会在节点之间共享,以优化整体性能。负载均衡算法因应用而异,科学计算集群与 Web 服务器集群所使用的方法不尽相同。高可用性集群通过冗余节点提高可靠性,消除单点故障。

超级计算系统需要强大的冷却系统来消散由高性能计算节点产生的热量。采用节能设计可以在提供高性能的同时最小化资源消耗。

注册开启免费试用 热门云产品任你选

免费体验 40+ 款企业级云服务,一次性试用多款云产品,迅速找到适配您业务的解决方案

高性能计算的应用场景

高性能计算(HPC)在各个领域都有广泛的应用场景。本文将从以下几个方面阐述高性能计算的应用场景。

商业和工业应用

在商业和工业领域,高性能计算技术被广泛应用于模拟分析。例如,在汽车设计中用于模拟汽车碰撞以优化结构设计;在航空航天领域用于分析汽车或飞机的空气动力学。这些模拟分析需要大量复杂的计算,高性能计算为其提供了强大的计算能力。

科学研究与天气预报

在科研机构中,科学家利用高性能计算模拟银河系的形成、核聚变能量、全球变暖等,并用于制定更加精确的短期和长期天气预报。

商业智能与大数据分析

高性能计算还被应用于商业智能领域,如数据仓库、线上业务应用和交易处理等。与之相关的高性能技术计算(HPTC)通常指基于集群计算的工程应用,如计算流体动力学和虚拟原型的构建与测试。

人工智能与多媒体处理

高性能计算实例可用于运行分布式分析、机器学习算法、批量处理、广告服务、视频编码、科学建模和可扩展的多人游戏等计算密集型工作负载。同时,实时数据抓取、分布式内存缓存、大数据分析、内存密集型企业应用和高性能数据库等内存密集型工作负载也非常适合在高性能计算实例上运行。 此外,需要高处理和存储能力的应用,如虚拟现实、3D 渲染、动画、计算机视觉和视频流等,也可以利用高性能计算实例的强大能力。

高性能计算与传统计算的区别

高性能计算(HPC)与传统计算存在显著区别,主要体现在以下几个方面:

HPC 系统采用超级计算机或计算机集群,通过数千个并行处理器的协同工作实现极高的计算能力。相比之下,传统计算通常在单一的计算机硬件上运行。HPC 系统中的计算节点通过高速网络相互连接,每个节点负责同一任务的一部分计算,最终汇总得到复杂的计算结果。

HPC 非常适合计算密集型工作负载,如流体动力学模拟、地震分析、科学计算等,这些应用对网络性能和低延迟有很高要求。而传统计算则更加通用,可用于各种不需要极高计算能力的工作负载。

云计算的兴起为 HPC 提供了可扩展的计算资源,企业无需大笔投资就能利用 HPC 的强大能力。与之相比,传统计算通常需要组织自行购置超级计算机或集群,成本较高。此外,HPC 还可利用容器化等技术实现资源的弹性调配,避免资源浪费。

HPC 正从单一超级计算机向计算机集群和网格计算转变,对网络基础设施提出了更高要求。同时,大多数现有应用程序并非为 HPC 技术设计,可能难以充分利用强大的处理器和机器。

亚马逊云科技高性能计算技术的优势

弹性计算

亚马逊云科技高性能计算服务提供了极高的弹性和灵活性,使用户能够根据实际需求快速扩展或缩减计算资源。借助这项云计算技术,用户可以在几分钟内增加或减少计算容量,而无需经历传统基础设施中需要数小时甚至数天的等待时间。这种弹性计算能力源于亚马逊云科技高性能计算服务通过 Web 服务 API 进行控制和管理。用户的应用程序可以根据自身需求自动扩展和缩减计算资源,实现真正的按需付费和高效利用。

  • 通过 API 自动扩缩容,满足应用实时需求
  • 按需付费,高效利用计算资源,降低成本
  • 几分钟内完成扩缩容,提高业务敏捷性
弹性计算

完全控制

使用亚马逊云科技高性能计算服务,用户可以完全控制自己的云服务器 / 云主机实例,拥有每个实例的根用户访问权限。这意味着用户对实例拥有最高权限,可以根据需求自由配置和管理实例。用户还可以在停止运行实例的同时将数据保存在引导分区,然后通过 Web 服务 API 重启该实例,实现数据持久化和实例恢复。此外,用户还可以远程重启实例和访问实例控制台的输出,方便进行故障诊断和维护。

  • 拥有实例的根用户访问权限,完全控制
  • 通过引导分区保存数据,实例重启后数据持久
  • 远程重启实例和访问控制台输出,方便维护
完全控制

安全可靠

亚马逊云科技高性能计算为用户提供了一个高度可靠的计算环境。在这个环境中,替代实例可以以可预见的方式快速启动,为用户的计算资源提供安全而强大的网络连接。用户的计算实例具有指定的 IP 地址范围,用户可以自主决定哪些实例向互联网公开,哪些实例保持私有状态,从而实现计算资源的合理隔离和访问控制。

  • 高可靠性环境,实例快速替换和启动
  • 为计算资源提供安全强大的网络连接
  • 指定 IP 范围,控制实例公网 / 私网访问
安全可靠

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

快速上手训练营

第一课:亚马逊云科技简介

本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

亚马逊云科技技术讲师:李锦鸿

第二课:存储与数据库服务

您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

亚马逊云科技资深技术讲师:周一川

第三课:安全、身份和访问管理

在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

亚马逊云科技技术讲师:马仲凯

了解更多入门学习计划 »

快速上手训练营

账单设置与查看

账单设置与查看

快速注册账号 享用免费套餐

跟随注册步骤详解,三分钟快速创建账号,领取免费权益

打开中国区账号注册页面

01 填写您 注册账号的邮箱,点击“继续”

02 查看您的 注册账号邮箱

注: 发件箱 no-reply@register.signin.amazonaws.com.cn

03 输入 邮箱中收到的验证码,点击“继续”

注: 该链接中的内容显示语言是与您的网页浏览器设置相一致的,您可以根据需要自行调整语言栏。

立即开始注册 »

image

填写用户名密码

01 请设置您的 账号用户名

02 为您的帐号 设置密码

03 重新 输入密码

立即开始注册 »

图片

填写账号联系人以及公司信息

01 填写公司联系人 姓名全称

02 填写公司联系人的 联系电话

03 填写 公司名称

注: 公司名称请务必与您所提供的营业执照公司名称保持一致

04 填写 公司办公地址

注: 省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码

05 请选择 是否需要发票

注: *附件-申请发票流程 供您参考

06 点击查看 客户协议 勾选方框表示您已阅读,并同意客户协议的条款

立即开始注册 »

图片

企业信息验证

01 在此上传 企业注册执照

02 请填写网络安全负责人的 姓名

注: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

03 请填写网络安全负责人的 联系方式

注: 有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)

04 在此上传网络安全负责人的 身份证件

注: 当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿

立即开始注册 »

图片

手机验证与支持计划

01 在此填写 手机号

02 请输入您收到的 4 位 验证码

03 请点击 继续

04 请根据需求 选择一个支持计划

立即开始注册 »

图片
限时钜惠

免费试用 Amazon EC2 T4g 实例

新老用户现可享受每月 750 小时的免费 t4g.small 实例使用时长,优惠期至 2025 年 12 月 31 日!