EC2 集群上亚马逊 EMR 的容量管理和亚马逊 EMR 托管扩展改进

2022 年 ,我们向您介绍了我们在 Amazon EMR 托管扩展 中进行的新增功能 ,这有助于提高集群利用率并降低集群成本。2023 年,我们很高兴地向大家报告,亚马逊 EMR 团队一直在努力工作。我们根据客户要求进行了反向研究,推出了多项新功能,以增强您的 Amazon EMR on EC2 集群容量管理和扩展体验。

亚马逊 EMR 是使用 Ap ache Spark 、Apache H ive 和 Presto 等开源框架进行千兆级数据处理、交互分析和机器学习 (ML) 的云大数据解决方案。 客户要求我们提供能够进一步改善他们在 EC2 集群(包括大型长时间运行的集群)上 EMR 的容量管理和扩展体验的功能。我们一直在努力满足这些需求。以下是一些关键增强功能:

  • 通过竞价型实例的配置超时增强了客户的透明度和灵活性
  • 在使用实例组启动的 EC2 集群上针对 Amazon EMR 进行了优化的任务节点向上扩展
  • 通过增强对 Spark 驱动程序的保护,提高作业灵活性

让我们更深入地了解并详细讨论新的 Amazon EMR 在 EC2 上的功能。

通过竞价型实例的配置超时增强了客户的透明度和灵活性

许多亚马逊 EMR 客户 将 EC2 竞价型实例 用 于 EC2 集群上的 EMR,以降低成本。竞价型实例是 亚马逊弹性计算云 (Amazon EC2) 的备用计算容量,与按需定价相比,折扣高达 90%。Amazon EMR 为您提供了手动或使用 自动扩展扩展扩展 集群的功能。您还可以使用 Amazon EMR 托管扩展 功能根据工作负载和利用率自动调整集群的大小。

为了增强使用竞价型实例进行扩展时的客户体验,对于使用实例队列启动的 EC2 集群上的 EMR,您现在可以为竞价型实例指定配置超时。如果集群在集群扩展操作期间超过指定的时间阈值,预置超时将告诉 Amazon EMR 停止配置竞价型实例容量。您可以为手动调整大小的集群配置竞价型实例配置超时时间,也可以使用 Amazon EMR 托管扩展和自动扩展。

此外,为了提供更好的透明度,当超时期到期时,Amazon EMR 还将自动将事件发送到 亚马逊 CloudWatch 事件流。使用这些 CloudWatch 事件,您可以创建根据指定模式匹配事件的规则,然后将事件路由到目标以采取行动。要了解更多信息,请参阅 在 Amazon EMR 中为集群调整大小 自定义配置超时时间

以下是您在调整 Amazon EMR on EC2 集群大小期间配置配置超时时段时不同场景的经验摘要

Scenario Experience
Amazon EMR is able to provision the desired Spot capacity before expiration of the provisioning timeout Amazon EMR automatically scales-up the cluster to the desired capacity and no action is needed from the customer
Amazon EMR is not able to provision any Spot capacity or only able to provision partial Spot capacity and the provisioning timeout has expired If Amazon EMR can’t provision the required Spot capacity and the provisioning timeout has expired, Amazon EMR will cancel the resize request and stops it’s attempts to provision additional Spot capacity. Amazon EMR will also publish events to an Amazon CloudWatch Events stream. Customers can use these events to create rules and take appropriate actions
If the Spot instances in your Amazon EMR on EC2 clusters are interrupted as Amazon EC2 needs them back Amazon EMR will automatically trigger a new resize request to rebalance your clusters by replacing instances with any of the available types in your cluster. Amazon EMR will also use the same provisioning resize timeout which was configured on the cluster. No action is needed from the customer.

在指定配置超时值时,应考虑容量可用性的重要性:

  • 当您的工作负载容量可用性至关重要 时 - 为了确保所需的容量可用,我们建议根据运行应用程序和应用程序 SLA 所需的时间来配置调整配置超时时间。例如,如果应用程序 SLA 为 60 分钟,应用程序需要 30 分钟才能完成,则应将调整大小配置超时设置为 30 分钟或更短。在超时到期(30 分钟或更短)之前,Amazon EMR 将尝试预置以获取 Spot 容量,并发布 CloudWatch 事件,以便您可以采取适当的措施。
  • 当您的工作负载具有时间灵活性且容量可用性不是因素 时, 如果工作负载具有时间灵活性且容量可用性不是一个因素,为了确保获得所需竞价容量的最大可能性,您可以为调整配置超时配置更高的超时值。

在使用实例组启动的 EC2 集群上针对 Amazon EMR 进行了优化的任务节点向上扩展

实例组为在 EC2 集群上启动 EMR 提供了更简单的设置。使用实例组启动的每个集群最多可以包含 50 个实例组:一个包含一个 EC2 实例的主实例组、一个包含一个或多个 EC2 实例的核心实例组,以及最多 48 个可选任务实例组。您可以通过手动添加和删除 EC2 实例来扩展每个实例组,也可以设置自动扩展。您还可以使用 Amazon EMR 托管扩展功能根据工作负载和利用率自动调整集群的大小。

为了在使用 Amazon EMR Managed Scaling 扩展扩展扩展任务节点时增强客户在 EC2 集群上 EMR 上的实例组的体验,我们增强了托管扩展算法,以选择获得容量可能性最高的任务实例组。此外,当托管扩展无法使用单个任务实例组获取容量时,为了减少任何扩展延迟,Amazon EMR 将自动切换到另一个任务组,并使用多个任务实例组来完成容量。因此,您的实例类型越灵活,预置容量的几率就越高。要了解更多信息,请参阅 最佳实践(例如)和可用区灵活性

通过增强对 Spark 驱动程序的保护,提高作业灵活性

2022 年 ,为了提高使用 Amazon EMR 托管扩展时的任务弹性,我们增强了托管扩展功能,使其具有 Spark 洗牌数据感知能力,这样可以防止缩小存储 Apache Spark 中间洗牌数据的实例。这有助于防止作业重试和重新计算,从而提高性能和降低成本。

为了进一步提高使用 Amazon EMR 托管扩展时的任务弹性,我们进一步增强了托管扩展功能,使其具有 Spark Driver 感知能力,这可确保在集群缩减期间,Amazon EMR 托管扩展会优先缩小未运行 Spark 驱动程序的节点。这有助于最大限度地减少作业失败和作业重试,从而进一步提高性能和降低成本。对于使用亚马逊 EMR 版本 5.34.0 及更高版本以及亚马逊 EMR 版本 6.4.0 及更高版本的 EMR 集群,此增强功能默认处于启用状态。

要确认集群中的哪些节点正在运行 Spark 驱动程序,您可以访问 Spark 历史服务器并在 Spark 应用程序 ID 的 “ 执行器 ” 选项卡上筛选驱动程序。

结论

在这篇文章中,我们重点介绍了我们在 EC2 集群上的容量管理和适用于 EMR 的 Amazon EMR 托管扩展方面所做的改进。我们专注于提高就业灵活性,增强配置竞价型实例时的灵活性和透明度,以及在 EC2 集群上使用 Amazon EMR 实例组托管扩展时优化纵向扩展体验。尽管到目前为止,我们已经在2023年推出了多项功能,并且创新步伐继续加快,但这仍然是第一天,我们期待听到您关于这些功能如何帮助您为组织释放更多价值的来信。我们邀请您试用这些新功能,如果您有其他意见,请通过您的 亚马逊云科技 账户团队联系我们。


作者简介

Sushant Majithia 是 亚马逊云科技 EMR 的首席产品经理。

Ankur Goyal 是亚马逊 EMR 大数据平台团队的 SDM。他构建了大规模的分布式应用程序和集群优化算法。Ankur 对分析、机器学习和预测等话题感兴趣。

Matthew Liem 是 亚马逊云科技 的高级解决方案架构经理。

Tarun Chanana 是亚马逊 EMR 大数据平台团队的 SDM。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。