本页面中描述的服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国区域的亚马逊云科技服务入门页面。中国区域的亚马逊云科技服务入门页面中,仅关于特定服务的“区域可用性”和“功能可用性和实现差异”的部分(但不包括其通过超链接援引的内容)构成您与光环新网或西云数据之间就您使用亚马逊云科技中国(北京)区域或亚马逊云科技中国(宁夏)区域服务达成的协议(“协议”)项下的“文档”的一部分,而该入门页面的其他内容不构成“协议”的任何部分。
Amazon Glue 文档
Amazon Glue是一项无服务器的数据集成服务,可帮助您准备数据以进行分析、机器学习和应用程序开发的工作。Amazon Glue提供了数据集成所需的全部功能,使您只需几分钟时间便可以获得数据见解并将数据投入使用。
数据探索
跨所有亚马逊云科技数据集发现和搜索数据
Amazon Glue数据目录旨在成为您所有亚马逊云科技数据资产的持久元数据存储,且无论它们在何处存储都将如此。数据目录包含表定义、作业定义、Schema和其他控制信息,以帮助您管理Amazon Glue环境。它旨在自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的schema版本历史记录,以便您可以了解您的数据如何随着时间发生变化。
自动schema探索
Amazon Glue抓取程序连接到您的源或目标数据存储,通过分类器的优先级列表不断更新以确定您的数据schema,然后在Amazon Glue数据目录中创建元数据。元数据存储在数据目录的表中,并在ETL任务的创建过程中使用。您可以通过以下方式运行抓取程序:按时间计划、按需求,也可以基于事件触发它们,以确保您的元数据是最新的。
管理和增强数据流架构
Amazon Glue Schema Registry是Amazon Glue的无服务器功能,让您可以使用注册的Apache Avro架构来验证和控制流数据的演变。通过Apache许可的序列化器和反序列化器,Schema Registry制造与为Apache Kafka开发的Java应用程序、适用于Apache Kafka的Amazon Managed Streaming (MSK)、Amazon Kinesis Data Streams、Apache Flink、适用于Apache Flink 的Amazon Kinesis Data Analytics和Amazon Lambda 集成。当数据流处理应用程序与Schema Registry集成时,它可帮助您改善数据质量并使用管辖架构发展的兼容性检查来防止出现意外更改。另外,您还可以使用存储在注册表中的架构来创建或更新Amazon Glue表和分区。
基于工作负载自动扩展
Amazon Glue中的自动扩展是Amazon Glue中的一种无服务器功能,它可以根据工作负载动态地扩展和缩减资源。使用自动扩展时,将仅在需要时将您的任务分配给工件。随着任务进展,进入高级转型过程,Amazon Glue将根据它对工作负载的拆分程度添加和删除资源。您不再需要担心过度预置资源,花费时间优化工件数量,或为闲置的工件支付费用。
数据转换
使用拖放式界面可视化转换数据
使用Amazon Glue Studio,您可以编写高度可扩展的ETL作业来进行分布式处理,而无需成为Apache Spark专家。在拖放作业编辑器中定义您的ETL过程,Amazon Glue 可自动生成代码以提取、转换和加载您的数据。它使用Scala或Python语言生成代码,并针对Apache Spark环境对代码进行编写。
使用简单的作业计划生成复杂的ETL管道
Amazon Glue作业可以按计划、按需或基于事件进行调用。您可以并行启动多个作业,也可以跨作业指定依赖关系以构建复杂的ETL管道。Amzon Glue旨在将处理所有的作业间依赖关系、筛选出不良数据并且在作业失败时进行重试。所有日志和通知都将推送到Amazon CloudWatch,以便您可以从中心服务监控和获取提醒。
动态清理和转换流数据
Amazon Glue中的无服务器流ETL作业旨在持续使用流媒体源中的数据,包括Amazon Kinesis和Amazon MSK,动态清理和转换数据,并在目标数据存储中将其用于分析。使用此功能可以处理IoT事件流、点击流和网络日志等事件数据。Amazon Glue流式ETL作业可以丰富和聚合数据,加入批处理和流数据源,并运行各种复杂的分析和机器学习操作。
集成
简化数据集成任务开发
Amazon Glue交互式会话是任务开发的一种无服务器功能,它简化了数据集成任务的开发。Amazon Glue 交互式会话可使数据工程师以交互方式探索和准备数据。工程师可以使用IDE或他们选择的笔记本交互式地探索、实验和处理数据。
内置的Job Notebooks
Amazon Glue Studio Job Notebooks以最小的设置在Amazon Glue Studio中提供无服务器笔记本,以便开发人员可以快速入门。Glue Studio Job Notebooks为Amazon Glue交互式会话提供内置界面,使用户能够将其笔记本代码保存并计划为Amazon Glue 任务。
数据准备
使用内置的机器学习消除重复数据和清理数据
Amazon Glue可帮助清理数据,并为您准备数据进行分析,而无需您成为机器学习专家。它的FindMatches功能旨在删除重复,并找到互相之间不完全匹配的记录。例如,使用FindMatches工具查找您的餐厅数据库中的重复记录,例如一条记录是位于“121 Main St.”的“Joe's Pizza”,而另一条记录是位于“121 Main”的“Joseph's Pizzeria”。FindMatches会要求您将记录集标记为“匹配”或“不匹配”。然后系统将会学习您将一对记录称为“匹配”的标准,并构建一个ETL作业,您可以使用它来查找数据库中的重复记录或匹配两个数据库中的记录。
通过开发人员终端节点编辑、调试和测试ETL代码
如果您选择通过交互方式开发ETL代码,Amazon Glue将提供开发终端节点,以供您编辑、调试和测试其为您生成的代码。您可以使用自己喜爱的IDE或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将它们作为自定义库导入到Amazon Glue ETL作业中。您还可以在我们的GitHub存储库中使用并与其他开发人员共享代码。
使用可视化界面标准化数据而无需编写代码
Amazon Glue DataBrew提供交互式、点击式可视化界面,使数据分析师和数据科学家等用户无需编写代码即可清理和标准化数据。您可以直接从湖内数仓、数据仓库和数据库(包括Amazon S3、Amazon Redshift、Amazon Aurora 和 Amazon RDS)中可视化、整理和标准化数据。您可以从超过250个内置转换中进行选择,以合并、转变和转置数据,并且可以通过将保存的转换直接应用于新传入的数据来自动执行数据准备任务。
定义、检测并修复敏感数据
Amazon Glue敏感数据检测允许您在数据管道和数据湖中定义、识别和处理敏感数据。一旦确定,您就可以通过编辑、替换或报告个人可识别身份信息(PII)数据和其他被认为敏感的数据类型来修复敏感数据。Amazon Glue敏感数据检测简化了敏感数据的识别和屏蔽,包括PII,如姓名、SSNs、地址、电子邮件和驾照。
其他信息
有关服务控制、安全特性及功能的其他信息,包括有关存储、检索、修改、限制和删除数据的信息,请参见:https://docs.amazonaws.cn/。以上链接包含的信息不构成光环新网关于亚马逊云科技(北京区域)的客户协议或西云数据关于亚马逊云科技(宁夏区域)的客户协议的“文档”的一部分,也不构成您与光环新网或西云数据之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。