Apache Hudi on Amazon EMR

概述

Apache Hudi 是一个开源数据管理框架，用于简化增量数据处理和数据管道开发。该框架可以更有效地管理数据生命周期等业务需求，并提高数据质量。使用 Apache Hudi，您可以在 Amazon S3 数据湖中的记录层级管理数据，以简化变更数据捕获（CDC）和数据摄入流式传输，并帮助处理需要执行记录层级更新和删除的数据隐私使用案例。Hudi 管理的数据集使用开放存储格式存储在 S3 中，与 Presto、Apache Hive、Apache Spark 和 Amazon Glue 数据目录的集成使您能够使用熟悉的工具近乎实时地访问更新后的数据。

Amazon EMR 支持 Hudi，当您在部署 EMR 集群时选择 Spark、Hive 或 Presto 时，Hudi 会自动安装。使用 Hudi，您可以处理包含大量读取或大量写入操作的使用案例，Hudi 将使用 Apache Parquet 和 Apache Avro 管理存储在 S3 上的底层数据。Hudi 管理的数据集不仅可以从 Spark（和 PySpark）访问，还可以从 Hive 和 Presto 等其他引擎访问。与 Amazon Database Migration Service 的本机集成还为数据提供了另一个变更来源。

使用案例

记录级别的插入、更新和删除，以满足隐私法规要求和简化管道

由于最近的隐私法规要求，许多行业的公司需要针对个人
“被遗忘权”，或对其数据使用方式的同意进行记录级别的更新和删除。以前，即便只需修改少量数据，也需要创建自定义数据管理和摄取解决方案，以跟踪每一项单独变更，并且需要重写大规模数据集。借助 Apache Hudi on EMR，您可以使用熟悉的插入、更新、更新插入和删除操作。而且，Hudi 将跟踪事务并在 S3 上执行精细更改，从而简化您的数据管道。

简化的文件管理和近乎实时的数据访问

流式传输 IoT 和摄取管道需要处理数据插入和更新事件，而无需创建许多可能引起分析性能问题的小文件。数据工程师需要能提供以下帮助的工具：能让他们使用更新插入高效地处理流数据摄取、自动化和优化存储，以及使分析师能够立即查询新数据。以前，您必须构建自定义解决方案来监控许多小文件，并将它们重写为较少的大型文件，并管理编排和监控。Apache Hudi 将自动跟踪更改并合并文件，以便它们保持最佳大小。

一个常见的使用案例是将来自企业数据仓库（EDW）和操作数据存储（ODS）的数据提供给 Apache Hive 和 Presto 等 SQL 查询引擎，用于处理和分析。使用 Hudi，可以更精细地处理单个更改，从而减少开销。您可以直接查询 S3 数据集，以查看并向用户提供近乎实时的数据视图。

简化的 CDC 数据管道开发

创建数据管道时的一个常见挑战是处理 CDC。如果数据延迟到达或有误，则需要重写数据来更新记录。找到要更新的正确文件、应用更改然后查看数据是一项具有挑战性的工作，需要客户创建自己的框架或惯例。借助 Hudi，可以将延迟到达的数据“更新插入”到现有的数据集中。进行更改后，Hudi 将在 S3 中查找相应的文件，然后重写它们来合并更改。借助 Hudi，您还可以查看特定时间点的数据集。对数据集的每次更改都会被跟踪，并且可以在您需要“撤消”更改时轻松回滚。与 Amazon Database Migration Service（DMS）集成还可以简化数据加载过程。

详细了解 Amazon EMR 定价

访问定价页面

准备好开始构建了吗？

Amazon EMR 入门

Apache Hudi on Amazon EMR

概述

使用案例

记录级别的插入、更新和删除，以满足隐私法规要求和简化管道

简化的文件管理和近乎实时的数据访问

简化的 CDC 数据管道开发

详细了解 Amazon EMR 定价

关于我们

产品与解决方案

资源与支持

管理账户