Amazon Redshift 无需加载即可将数据仓库查询扩展到您的数据湖。您可以对 Redshift 本地存储的 PB 级数据进行分析查询,并且直接对 Amazon S3 中存储的 EB 级数据运行分析查询。设置简单,大部分管理任务都可自动执行,而且能在任何规模下提供高速性能。
性能更快
大规模并行
Amazon Redshift 可为 GB 到 EB 级的数据集提供高速查询性能。Redshift 使用列式存储、数据压缩及区域映射,可减少执行查询所需的 I/O 数量。它采用大规模并行处理 (MPP) 数据仓库架构,可对 SQL 操作进行并行和分布处理,以利用所有可用资源。基础硬件专为高性能数据处理而设计,使用本地连接存储实现 CPU 与驱动器之间的吞吐量最大化,并使用高带宽网状网络实现节点之间的吞吐量最大化。
机器学习
无论您的工作负载或并发机制使用情况如何,Amazon Redshift 都使用机器学习来提供高吞吐量。Redshift 利用精密算法来预测传入查询的运行时间,并将其分配给最佳队列以尽可能提高处理速度。例如,具有较高并发要求的控制面板和报告等查询将路由到快速队列,以便立即得到处理。随着并发性进一步提高,Amazon Redshift 会预测何时开始排队,并通过并发性扩展功能自动部署临时资源,从而无论对集群的要求如何,始终确保高速性能。
结果缓存
Amazon Redshift 使用结果缓存针对重复查询实现亚秒级响应速度。执行重复查询的控制面板、可视化和商业智能工具的性能得到大幅提升。在执行查询时,Redshift 会对缓存进行搜索,看看是否有之前运行的查询的缓存结果。如果找到缓存结果,并且相关数据没有变更,则会立即返回缓存结果,而不是重新运行查询。
易于设置、部署和管理
自动预置
Amazon Redshift 设置和操作都非常简单。您只需在 亚马逊云科技管理控制台中单击几下即可部署新的数据仓库,Redshift 会自动为您预置基础设施。大多数管理任务均自动执行,例如备份和复制,因此您可以专注于数据,而不必为管理分心。当您需要控制时,Redshift 提供选项来帮助您做出调整,以适应您的特定工作负载。新功能的发布采用透明方式,无需计划及应用升级和补丁。
自动备份
Amazon Redshift 会自动并持续地将您的数据备份到 Amazon S3。Redshift 可将您的快照异步复制到另一个区域的 S3 中,用于进行灾难恢复。通过 亚马逊云科技管理控制台或 Redshift API,您可使用任何系统快照或用户快照来恢复您的集群。一旦恢复了系统元数据,您的集群就会变为可用状态,当用户数据在后台导入时,您便可开始运行查询。
容错
Amazon Redshift 拥有多种有助于提高数据仓库集群可靠性的功能。Redshift 可持续监控集群的运行状况,自动从发生故障的驱动器重新复制数据,并在必要时更换节点以支持容错。
灵活查询
Amazon Redshift 可让您在控制台内灵活执行查询,并连接自己喜爱的 SQL 客户端工具、库或商业智能工具。亚马逊云科技控制台上的查询编辑器提供功能强大的界面,可用于对 Redshift 集群执行 SQL 查询,以及查看查询结果和与查询相邻的查询执行计划(对于在计算节点上执行的查询)。
集成第三方工具
与行业领先的工具和专家配合来加载、转换和可视化数据,增强了 Amazon Redshift。
经济高效
无预付费用,按需付费
Amazon Redshift 是最具成本效益的数据仓库,您只需为预置的资源付费。 Redshift 是唯一提供无预付费用的按需定价方案的云数据仓库,如果采用 1 年或 3 年期方案,预留实例定价可为您节省高达 75% 的费用,此外还会基于 Amazon S3 数据湖中扫描的数据量提供按查询定价的方案。有关更多信息,请参阅 Amazon Redshift 定价页面。
选择您的节点类型
您可以从两种节点类型中进行选择,以便根据您的数据仓库需求优化 Redshift。利用密集计算 (DC) 节点,您可以使用高速 CPU、大量 RAM 和固态硬盘 (SSD) 创建超高性能数据仓库。如果您想进一步扩大规模或降低成本,则可以切换到更具成本效益的密集存储 (DS) 节点类型,这种节点类型以极低的价格提供更大容量的硬盘驱动器。要扩展集群或在节点类型之间切换,您只需要执行一次 API 调用或在 亚马逊云科技管理控制台中单击几下。
快速扩展以满足您的需求
PB 级数据仓库
Amazon Redshift 可以根据您的需求变化快速轻松地实现扩展。只需在控制台中单击几下或执行一次简单的 API 调用,您就可以轻松更改数据仓库中节点的数量或类型,并可以根据需求的变化来扩大或缩小规模。
EB 级数据湖分析
Redshift Spectrum 是 Redshift 的一项功能,使您可以对 Amazon S3 中的 EB 级数据运行查询,而无需加载或转换任何数据。您可以将 S3 用作高度可用、安全且具有成本效益的数据湖,以开放数据格式存储无限量数据。
无限并发性
Amazon Redshift 甚至可以执行数千个并发查询,无论在 Amazon Redshift 数据仓库中还是直接在 Amazon S3 数据湖中查询数据,都可以提供一致的高速性能。
查询您的数据湖
Amazon S3 数据湖
Amazon Redshift 是唯一可以将查询扩展到 Amazon S3 数据湖而无需加载数据的数据仓库。您可以直接在 S3 中查询已在使用的开放文件格式,如 Avro、CSV、Grok、JSON、ORC、Parquet 等。这使您可以灵活地将高度结构化的、频繁访问的数据存储在 Redshift 本地磁盘中,将 EB 级的结构化和非结构化数据保留在 S3 中,并在两者之间执行无缝查询,以发掘查询独立数据集时无法获得的独特见解。
Amazon Redshift 并发扩展
为高度并发的工作负载获得一致、快速的查询性能
分析工作负载可能具有高度不可预测性,因此,可能会导致查询性能降低和用户争夺资源。客户需要一个自动化、经济实惠的解决方案,以便在不影响性能的情况下处理不断变化的查询量。
借助并发扩展功能,您可以轻松支持成千上万的并发用户和并发查询,同时保持稳定的快速查询性能。随着并发量的增加,Amazon Redshift 会在几秒钟内自动提高查询处理能力,从而毫无延迟地处理查询。一旦工作负载需求消退,这种额外的处理能力就会自动消失,因此,您只需为使用并发扩展集群的时长付费。使用 Amazon Redshift 扩展时,对客户的成本影响最小,因为每个集群每天最多可获得一小时的免费并发扩展积分。这些免费积分足以满足 97% 的 Redshift 客户的并发需求。有关更多详细信息,请参阅定价页面。
借助并发扩展功能,您可以:
- 为成千上万的并发查询和用户获得一致的快速性能
- 将集群分配给特定的用户组和工作负载,并控制可使用的集群数量
- 继续使用您现有的应用程序和商业智能工具。
要启用并发扩展功能,只需在 Redshift 控制台中将并发扩展模式设置为 Auto(自动)。
Amazon Redshift 数据共享
Amazon Redshift 数据共享使您能够将单个集群中 Amazon Redshift 产品的易用性、性能和成本效益扩展到多集群部署,同时还可以共享数据。借助数据共享功能,无需复制或移动数据,即可以即时、精细且快速的方式跨 Amazon Redshift 集群访问数据。数据共享功能支持对数据的实时访问,从而确保在数据仓库中更新信息时,您的用户始终可以看到最新、一致的信息。您可以安全地与相同或不同亚马逊账户中的 Amazon Redshift 集群共享实时数据。
Amazon Redshift 数据共享可提供:
- 简单、直接的方式来跨 Amazon Redshift 数据仓库共享数据
- 即时、精细和高性能的访问,无需数据复制和数据移动。
- 在所有消费者中提供实时、交易一致的数据视图。
- 在组织内外以及外部各方中提供安全、受管控的协作。
在 Amazon Redshift 集群上使用数据共享功能无需额外的费用。
数据共享构建于 Amazon Redshift RA3 托管存储之上,它将存储与计算分离开来,从而使这两者可以独立地进行扩展。通过数据共享,访问共享数据的工作负载相互隔离。访问共享数据的查询在消费者集群上运行,并直接从 Amazon Redshift 托管存储层读取数据,而不会影响生产者集群的性能。现在,您可以快速载入任意数量的工作负载(具有不同数据访问模式和 SLA 要求),而不必担心资源争用。可以使用灵活的计算资源预置访问共享数据的工作负载,以满足其特定工作负载的性价比要求,并且可根据需要以自助服务方式独立扩展。