重温 2024 年亚马逊云科技 re:Invent 的精彩瞬间,一键查看主题演讲及创新讲座的精彩回放

 ✕

首页  »  产品  »  Amazon Glue

Amazon Glue

简单、可扩展且无服务器的数据集成

Amazon Glue 是一项无服务器数据集成服务,可以让用户轻松发现、准备和合并数据,以便进行分析、机器学习和应用程序开发。Amazon Glue 提供有数据集成所需的所有功能,从而让您只需几分钟而不是几个月即可开始分析您的数据并即可将其付诸使用。

数据集成是为分析、机器学习和应用程序开发准备和合并数据的过程。它涉及多项任务,例如从各种来源发现和提取数据;丰富、清理、规范化和合并数据;加载和组织数据库、数据仓库和数据湖中的数据。这些任务通常由不同类型的用户处理,每种用户都使用不同的产品。

Amazon Glue 提供有可视化和基于代码的界面,可以让数据集成更加轻松。用户可以使用 Amazon Glue 数据目录轻松查找和访问数据。数据工程师和 ETL(提取、转换和加载)开发人员可以创建并运行 ETL 工作流程。数据分析师和数据科学家可以使用 Amazon Glue DataBrew 直观地丰富、清理和规范化数据,而无需编写任何代码。

Amazon Glue 是一项无服务器数据集成服务,可以让用户轻松发现、准备和合并数据,以便进行分析、机器学习和应用程序开发。Amazon Glue 提供有数据集成所需的所有功能,从而让您只需几分钟而不是几个月即可开始分析您的数据并即可将其付诸使用。

数据集成是为分析、机器学习和应用程序开发准备和合并数据的过程。它涉及多项任务,例如从各种来源发现和提取数据;丰富、清理、规范化和合并数据;加载和组织数据库、数据仓库和数据湖中的数据。这些任务通常由不同类型的用户处理,每种用户都使用不同的产品。

Amazon Glue 提供有可视化和基于代码的界面,可以让数据集成更加轻松。用户可以使用 Amazon Glue 数据目录轻松查找和访问数据。数据工程师和 ETL(提取、转换和加载)开发人员可以创建并运行 ETL 工作流程。数据分析师和数据科学家可以使用 Amazon Glue DataBrew 直观地丰富、清理和规范化数据,而无需编写任何代码。

优势

更快的数据集成
组织中的不同组可以使用 Amazon Glue 协同执行数据集成任务,包括提取、清理、规范化、合并、加载和运行可扩展的 ETL 工作流。这样,您可以将分析数据并将数据付诸使用所需的时间从几个月缩短到几分钟。
无需管理服务器
Amazon Glue 在无服务器环境中运行。没有要管理的基础设施,且 Amazon Glue 会预置、配置和扩展运行数据集成作业所需的资源。您只需为作业运行时使用的资源付费。
大规模自动执行数据集成
Amazon Glue 可自动执行数据集成所需的大部分工作。Amazon Glue 可以抓取您的数据源、识别数据格式并建议存储数据的架构。它会自动生成用于运行数据转换和加载过程的代码。您可以使用 Amazon Glue 轻松运行和管理数千个 ETL 作业,或者使用 SQL 在多个数据存储之间合并和复制数据。

优势

更快的数据集成

组织中的不同组可以使用 Amazon Glue 协同执行数据集成任务,包括提取、清理、规范化、合并、加载和运行可扩展的 ETL 工作流。这样,您可以将分析数据并将数据付诸使用所需的时间从几个月缩短到几分钟。

无需管理服务器

Amazon Glue 在无服务器环境中运行。没有要管理的基础设施,且 Amazon Glue 会预置、配置和扩展运行数据集成作业所需的资源。您只需为作业运行时使用的资源付费。

大规模自动执行数据集成

Amazon Glue 可自动执行数据集成所需的大部分工作。Amazon Glue 可以抓取您的数据源、识别数据格式并建议存储数据的架构。它会自动生成用于运行数据转换和加载过程的代码。您可以使用 Amazon Glue 轻松运行和管理数千个 ETL 作业,或者使用 SQL 在多个数据存储之间合并和复制数据。

工作原理

  • 构建事件驱动的 ETL 管道
  • 当新数据到来时,Amazon Glue 可以运行您的 ETL 作业。例如,您可以使用 Amazon Lambda 函数来触发 ETL 作业,以在 Amazon S3 中有新数据可用时立即运行。您还可以将这个新数据集注册到 Amazon Glue Data Catalog 中,作为 ETL 作业的一部分。

  • 跨多个数据存储查找数据
  • 您可以使用 Amazon Glue Data Catalog 快速发现和搜索多个 Amazon 数据集,而无需移动数据。在存储到目录中之后,数据立即可供使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 进行搜索和查询。

  • 自助式可视化数据准备
  • Amazon Glue DataBrew 使您能够直接从数据湖、数据仓库和数据库(包括 Amazon S3、Amazon Redshift、Amazon Lake Formation、Amazon Aurora 和 Amazon RDS)中探索和试验数据。您可以从 Amazon Glue DataBrew 中的 250 多种预构建转换中进行选择,以自动执行数据准备任务,例如筛选异常、标准化格式和纠正无效值。数据准备就绪后,您可以立即将其用于分析和机器学习。在此了解有关 Amazon Glue DataBrew 的更多信息。

工作原理

  • 构建事件驱动的 ETL 管道
  • 当新数据到来时,Amazon Glue 可以运行您的 ETL 作业。例如,您可以使用 Amazon Lambda 函数来触发 ETL 作业,以在 Amazon S3 中有新数据可用时立即运行。您还可以将这个新数据集注册到 Amazon Glue Data Catalog 中,作为 ETL 作业的一部分。

  • 跨多个数据存储查找数据
  • 您可以使用 Amazon Glue Data Catalog 快速发现和搜索多个 Amazon 数据集,而无需移动数据。在存储到目录中之后,数据立即可供使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 进行搜索和查询。

  • 自助式可视化数据准备
  • Amazon Glue DataBrew 使您能够直接从数据湖、数据仓库和数据库(包括 Amazon S3、Amazon Redshift、Amazon Lake Formation、Amazon Aurora 和 Amazon RDS)中探索和试验数据。您可以从 Amazon Glue DataBrew 中的 250 多种预构建转换中进行选择,以自动执行数据准备任务,例如筛选异常、标准化格式和纠正无效值。数据准备就绪后,您可以立即将其用于分析和机器学习。在此了解有关 Amazon Glue DataBrew 的更多信息。

如何开始使用

了解工作原理

了解更多关于 Amazon Glue 主要功能的信息。
 

探索 Amazon Glue 功能 
注册免费账户

在学习基础知识并基于亚马逊云科技构建内容时,您可以进行免费使用或试用。

创建免费账户 
联系专家

从开发到企业级计划,及时获取适当的支持。
 

探索支持选项 

如何开始使用

 了解工作原理

了解更多关于 Amazon Glue 主要功能的信息。

探索 Amazon Glue 功能 

 注册免费账户

在学习基础知识并基于亚马逊云科技构建内容时,您可以进行免费使用或试用。

创建免费账户 

 联系专家

从开发到企业级计划,及时获取适当的支持。

探索支持选项 
关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域