数据发现

在您的所有 Amazon 数据集中发现和搜索

Amazon Glue 数据目录是您所有数据资产的持久性元数据存储,且无论数据资产位于何处都将如此。数据目录包含表定义、作业定义和其他控制信息,以帮助您管理 Amazon Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的 Schema 版本历史记录,以便您能够了解数据是如何随着时间变化的。

自动发现架构

Amazon Glue 抓取程序可以连接到源或目标数据存储,按分类器的优先级列表逐个抓取来确定数据的架构,然后在 Amazon Glue 数据目录中创建元数据。元数据存储在数据目录的表中,会在 ETL 作业的创建过程中使用。您可以按计划、按需运行抓取程序,或者根据事件触发抓取程序,以确保您的元数据是最新的。

管理和强制执行数据流的架构

Amazon Glue Schema Registry 是 Amazon Glue 的一项无服务器功能,使您能够使用注册的 Apache Avro 架构验证和控制流数据的演变,而无需额外付费。通过 Apache 许可的序列化器和反序列化器,Schema Registry 与为 Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK)、Amazon Kinesis Data Streams、Apache Flink、Amazon Kinesis Data Analytics for Apache Flink 和 Amazon Lambda 开发的 Java 应用程序相集成。当数据流应用程序与 Schema Registry 集成时,您可以使用管理架构演变的兼容性检查来提高数据质量并防止意外更改。此外,您还可以使用存储在注册表中的架构创建或更新 Amazon Glue 表和分区。

数据转换

Amazon Glue 抓取程序可以连接到源或目标数据存储,按分类器的优先级列表逐个抓取来确定数据的 Schema,然后在 Amazon Glue 数据目录中创建元数据。元数据存储在数据目录的表中,会在 ETL 作业的创建过程中使用。您可以按计划、按需运行抓取程序,或者根据事件触发抓取程序,以确保您的元数据是最新的。

通过简单的作业安排构建复杂的 ETL 管道

Amazon Glue 作业可以按计划、按需或者根据事件进行调用。您可以并行启动多个作业,或者指定作业之间的依赖关系,以构建复杂的 ETL 管道。Amazon Glue 能够处理作业之间的所有依赖关系、筛选不良数据,以及在作业失败时进行重试。所有日志和通知都会推送到 Amazon CloudWatch,以便您从中心服务处进行监控和获得提醒。

清理和转换正在运行的流数据

Amazon Glue 中的无服务器流 ETL 作业持续使用来自包括 Amazon Kinesis 和 Amazon MSK 在内的流来源的数据,清理和转换正在运行的数据,并在几秒钟内在目标数据存储中使用数据进行分析。使用此功能可处理 IoT 事件流、点击流和网络日志等事件数据。Amazon Glue 流 ETL 作业可以丰富和聚合数据、加入批处理和流来源以及运行各种复杂的分析和机器学习操作。

数据准备

利用内置的机器学习消除重复数据并清理数据

Amazon Glue 会自动生成代码来提取、转换和加载您的数据。只需将 Amazon Glue 指向您的数据源和目标,Amazon Glue 就会创建 ETL 脚本来转换、合并和丰富您的数据。代码使用 Scala 或 Python 生成,并针对 Apache Spark 进行编写。

使用开发人员终端节点编辑、调试和测试 ETL 代码

如果您选择以交互方式开发 ETL 代码,Amazon Glue 会提供开发终端节点,以供您编辑、调试和测试为您生成的代码。您可以使用自己最喜欢的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将其作为自定义库导入 Amazon Glue ETL 作业中。您还可以在我们的 GitHub 存储库中与其他开发人员共用和分享代码。

使用视觉界面在没有代码的情况下对数据进行规范化

Amazon Glue DataBrew 为数据分析师和数据科学家等用户提供了一个交互式的点击式视觉界面,无需编写代码即可清理和规范化数据。您可以轻松可视化、清理和规范化数据湖、数据仓库和数据库(包括 Amazon S3、Amazon Redshift、Amazon Aurora 和 Amazon RDS)中的数据。您可以从 250 多种内置转换中进行选择,以合并、透视和转置数据,并通过将保存的转换直接应用于新传入数据来自动执行数据准备任务。

访问定价页面

浏览 Amazon Glue 的定价选项。

了解更多 
注册账户
注册 
开始在控制台中构建

开始在 亚马逊云科技管理控制台中使用 Amazon Glue 构建。

登录 
关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域