发布于: Jan 25, 2021

Amazon EMRApache Ranger 的集成现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域推出。您可以使用 Apache Ranger 在 Amazon EMR 上定义、强制实施和审核精细的数据访问控制,并利用 Amazon CloudWatch 捕获审计日志。 

Apache Ranger 是一种开源工具,用于在 Hadoop 平台上启用、监控和管理全面的数据安全性。以前,您可以使用 Apache Ranger 按照本博文所述对 HDFS 中使用 Apache Hive 的数据强制实施精细授权。现在,这种本机集成还实现了其他功能。您可以在 Apache Ranger 策略管理服务器上定义三种类型的授权策略。您可以为 Apache Hive 设置表、列和行级授权,为 Apache Spark 设置表和列级授权,以及为 Amazon S3 设置前缀和对象级授权。Amazon EMR 会自动在集群上安装和配置相应的 Apache Ranger 插件。这些 Ranger 插件与授权策略的策略管理服务器同步,强制实施数据访问控制,并将审计事件发送到 Amazon CloudWatch Logs

下面是在 Amazon EMR 上启用 Apache Ranger 集成之前应考虑的一些注意事项和限制。1/ 目前只有 Apache Hive 支持行级授权和数据屏蔽策略。2/ 在使用 Spark API 配合 Java、Scala、R 和 Pyspark 读取和写入数据时,EMR Ranger-Spark 插件强制实施精细授权。但是,目前不支持在启用 Ranger 的集群上使用 Spark SQL 写入数据;仅支持使用 SparkSQL 读取数据。3/ 本机集成支持 Apache Zeppelin 和 Hue 等选定应用程序。有关受支持应用程序的完整列表,请参阅支持的应用程序 

要开始使用,请查看以下资源列表:

• Amazon EMR 管理指南:集成 Amazon EMR 与 Apache Ranger
• 亚马逊云科技大数据博文:Amazon EMR 与 Apache Ranger 的集成简介