发布于: May 30, 2023
Amazon SageMaker Studio 是面向机器学习的完全集成开发环境(IDE),让数据科学家和开发人员能够执行机器学习流程的每个步骤,不管是准备数据还是构建、训练、微调和部署模型。 SageMaker Studio 内置与 Amazon EMR 的集成,因此,数据科学家可以使用 Studio 笔记本中的开源框架(如 Apache Spark、Hive 和 Presto)交互式准备 PB 级别数据。数据通常存储在由 Amazon Lake Formation 托管的数据湖中,这使您可以通过简单的授权或撤销机制进行精细访问控制。 我们很高兴地宣布,SageMaker Studio 现在支持在访问 Amazon EMR 中的数据时对 Amazon Lake Formation 应用此精细数据访问控制。
到目前为止,当您在 EMR 集群上运行多个数据处理作业时,所有作业都会使用相同的 Amazon Identity and Access Management (IAM) 角色(即集群的 EC2 实例配置文件)来访问数据。因此,要运行需要访问不同数据源(例如不同的 S3 存储桶)的作业,您必须使用允许访问所有此类数据源合并的策略来配置 EC2 实例配置文件。此外,为了让一组用户能够差异化访问数据,您必须创建多个单独的集群,每个组一个,这就会产生运营开销。另外,从 Studio 笔记本向 EMR 提交的作业无法通过 Amazon LakeFormation 应用精细数据访问控制。
即日起,从 SageMaker Studio 笔记本连接到 Amazon EMR 集群时,您可以直观地进行浏览并选择名为运行时 IAM 角色的实时 IAM 角色。随后,通过 Studio 笔记本创建的所有 Apache Spark、Apache Hive 或 Presto 作业将仅访问附加到运行时角色的策略所允许的数据和资源。此外,当从由 Amazon LakeFormation 托管的数据湖访问数据时,您可以使用附加到运行时角色的策略强制执行表级和列级访问。 借助这项新功能,多个 SageMaker Studio 用户可以连接到同一个 EMR 集群,这些用户每个都拥有一个运行时 IAM 角色,其权限范围与其个人数据访问级别匹配。其用户会话也在共享集群上完全相互隔离。通过对同一共享集群上的数据的精细访问控制功能,客户可以简化 EMR 集群的配置,从而减少运营开销并节省成本。
此功能现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域中在连接至 Amazon EMR 6.9 时的 Amazon SageMaker Studio 中全面支持。要详细了解 SageMaker Studio,请访问 SageMaker 用户指南。