发布于: Jul 20, 2022

我们很高兴推出两项新功能,它们可以帮助您在 EC2 集群(EMR 集群)上通过 Amazon EMR 实施访问控制。作为 EMR 步骤提交到 EMR 集群的作业支持这些功能。第一个是具有 EMR 步骤的运行时角色。运行时角色是您与 EMR 步骤关联的 Amazon Identity and Access Management(IAM)角色,作业使用此角色访问亚马逊云科技资源。第二个是与 Amazon Lake Formation 集成,为使用 EMR 步骤的 Apache Spark 和 Apache Hive 作业应用表级和列级访问控制。

以前,在 EMR 集群上运行的所有作业都使用与 EMR 集群的 EC2 实例(实例配置文件)关联的 IAM 角色来访问亚马逊云科技资源。例如,如果在同一集群上运行的 Spark 作业和 Hive 作业需要访问不同的 S3 存储桶,则实例配置文件必须允许访问这两个存储桶。借助 EMR 步骤的运行时角色,您现在可以为 Spark 和 Hive 作业指定不同的 IAM 角色,从而缩小作业级别的访问范围。这使您可以简化在多个租户之间共享的单个 EMR 集群上的访问控制,其中每个租户可以使用 IAM 角色轻松隔离。
此外,您可以使用 Amazon Lake Formation 对作为 EMR 步骤提交的 Apache Spark 和 Apache Hive 作业应用表级和列级权限。Amazon Lake Formation 是一项完全托管的服务,可以轻松构建、保护和管理数据湖。借助 Amazon Lake Formation,您可以通过简单的授权或撤销机制(与关系数据库管理系统(RDBMS)非常相似)对存储在数据湖中的数据应用细粒度访问控制。借助此功能,Amazon Lake Formation 中为 IAM 角色定义的表级和列级权限将通过作为 EMR 步骤提交的 Apache Hive 和 Apache Spark 作业无缝强制执行。这允许您进一步简化访问控制,并为每个作业提供对特定数据库、表和列的访问权限。
 

这两项功能均在 Amazon EMR 版本 6.7 中提供,并且在推出 Amazon EMR 的所有区域均可用。有关更多详细信息,请参阅 Amazon EMR 的区域可用性和我们的发行说明