Amazon Glue

简单、可扩展且无服务器的数据集成

Amazon Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,让客户能够轻松地准备和加载数据以供分析。在亚马逊云科技管理控制台中单击几下鼠标,即可创建并运行 ETL 作业。您只需将 Amazon Glue 指向储存在亚马逊云科技中的数据,Amazon Glue 就会发现这些数据并将关联的元数据(如表定义和 Schema)存储到 Amazon Glue 数据目录中。在存储到目录中之后,您的数据立即可供进行搜索、查询并能用于 ETL。

优势

更快的数据集成

Amazon Glue 集成在各种亚马逊云科技服务中,这意味着您可以轻松完成载入流程。Amazon Glue 原生支持存储在以下位置的数据:Amazon Aurora 以及所有其他 Amazon RDS 引擎、Amazon Redshift 和 Amazon S3,以及在 Amazon EC2 上运行的 Virtual Private Cloud (Amazon VPC) 中的通用数据引擎和数据库。

大规模自动执行数据集成

Amazon Glue 属于无服务器服务。无需预置或管理基础设施。Amazon Glue 负责预置、配置和扩展在完全托管且横向扩展的 Apache Spark 环境中运行 ETL 作业所需的资源。您只需为运行作业时使用的资源付费。

无需管理服务器

在您构建、维护和运行 ETL 作业时,Amazon Glue 会自动完成大部分工作。Amazon Glue 可以抓取您的数据源、识别数据格式并建议 Schema 和转换。Amazon Glue 会自动生成用于执行数据转换和加载流程的代码。

 

使用案例

构建事件驱动型 ETL(提取、转换和加载)管道

数据湖是一种越来越受欢迎的方法,可以存储和分析结构化和非结构化数据。如果您想要构建自定义 Amazon S3 数据湖,Amazon Glue 可以让您的所有数据立即可用于分析,而无需移动数据。

构建事件驱动型 ETL(提取、转换和加载)管道

创建统一目录以查找多个数据存储中的数据

通过使用 Amazon Glue 清理、规范和丰富数据集,准备点击流或处理日志数据以供分析。Amazon Glue 为半结构化数据生成 Schema,创建 ETL 代码来转换、合并和丰富数据,并定期加载数据仓库

创建统一目录以查找多个数据存储中的数据

您可以使用 Amazon Glue 数据目录快速发现和搜索多个亚马逊云科技数据集,而无需移动数据。在存储到目录中之后,数据立即可供使用 Amazon EMR 和 Amazon Redshift Spectrum 进行搜索和查询。


通过自助式可视化数据准备来探索数据

Amazon Glue 可以根据事件运行 ETL 作业,例如获取新数据集。例如,您可以使用 Amazon Lambda 函数来触发 ETL 作业在 Amazon S3 中有新数据可用时立即运行。您还可以将这个新数据集注册到 Amazon Glue 数据目录中,作为 ETL 作业的一部分。

通过自助式可视化数据准备来探索数据
网页图片
查看产品功能

详细了解 Amazon Glue 的主要功能。

了解更多 
账户登录图片
注册账户
注册 
工具框图片
开始在控制台中构建

开始在亚马逊云科技管理控制台中使用 Amazon Glue 构建。

登录 

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域