发布于: Aug 26, 2022

 

大数据治理平台架构是数据时代的重要衍生物,随着数据在当今世界中的作用不断发展演变,数据治理已然成为有效数据管理的重要环节

 

大数据治理平台架构是数据时代的重要衍生物,随着数据在当今世界中的作用不断发展演变,数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库,存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。

 

Amazon EMR 是一项托管服务,可简化大数据框架(如 Apache Hadoop 和 Spark)的实施。如果您使用 Amazon EMR,则可以从一组定义好的应用程序中进行选择,或者从列表中选择您自己的应用程序。

Apache Atlas 是用于 Hadoop 的企业级数据治理和元数据的一套框架。Atlas 为组织提供开放的元数据管理和治理功能,用于建立组织的数据资产目录。Atlas 支持数据分类,包括描述了数据演变方式的存储沿袭。它还提供用于搜索关键元素及其业务定义的功能。

在 Apache Atlas 提供的所有功能中,本文最关注的核心功能是 Apache Hive 元数据管理和数据沿袭。成功设置 Atlas 后,它将使用原生工具导入 Hive 表并分析数据,以便直观地向最终用户展示数据沿袭。要了解有关 Atlas 及其功能的更多信息,请访问 Atlas 网站。

 

Amazon Web Services Glue 数据目录提供了跨各种数据源和数据格式的统一元数据存储库。Amazon Web Services Glue 数据目录与 Amazon EMR 以及 Amazon RDS、Amazon Redshift、Redshift Spectrum 和 Amazon Athena 集成。该数据目录可与任何兼容 Hive 元存储的应用程序配合使用。

只需要了解 Apache Atlas on Amazon EMR 的安装范围,Amazon EMR 上的 Hive 元存储库即可提供数据沿袭、发现和分类功能。此外,您可以使用此解决方案为没有 Amazon Web Services Glue 的 Amazon Web Services 区域进行分类。

 

Apache Atlas 要求您在使用 EMR 集群时必备的应用程序组件(例如 Apache Hadoop、HBase、Hue 和 Hive)。Apache Atlas 将使用 Apache Solr 用于搜索,并使用 Apache HBase 用于存储。在 Atlas 安装过程中,Solr 和 HBase 都会安装在 Amazon EMR 集群上。

该解决方案的架构支持内部和外部 Hive 表。为了使 Hive 元存储在多个 Amazon EMR 集群之间持久保留,您应该将该元存储包含在外部 Amazon RDS 或 Amazon Aurora 数据库内。Amazon EMR 文档中提供了引用外部 RDS Hive 元存储的 Hive 服务的示例配置文件。

下图展示了我们的解决方案架构。

 

 

相关文章