首页›
产品›
Amazon Elastic MapReduce

Amazon Elastic MapReduce

托管的 Hadoop 框架

创建免费账户

在控制台中管理

概述

Amazon Elastic MapReduce（Amazon EMR）是一种 Web 服务，让您能够轻松快速并经济高效地处理大量数据。Amazon EMR 是行业领先的云大数据平台，用于使用 Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi 和 Presto 之类的开源工具处理海量数据。Amazon EMR 可自动执行预置容量和调整集群之类的耗时任务，从而使您能够轻松设置、运营和扩展您的大数据环境，并使用开源框架 Hadoop 在可调整大小的 Amazon EC2 实例集群中分发数据和处理任务。Amazon EMR 可用于各种应用程序中，包括日志分析、Web 索引、数据仓库、机器学习、财务分析、科学模拟和生物信息学。客户每年启动数以百万的 Amazon EMR 集群。

优势

简单易用

您可以使用集成式开发环境（IDE）EMR Studio 来轻松开发、可视化和调试使用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。

成本低廉

EMR 定价简单并且可预测：您需要按照每秒使用的每个实例费率付费，最低收费时长为 1 分钟。每小时只需 0.187 USD 即可启动 10 个节点的 EMR 集群。您可以通过为临时工作负载选择 Amazon EC2 Spot 实例并为长时间运行的工作负载选择预留实例来节省实例成本。

弹性

与本地集群的僵化基础设施不同，EMR 将计算和存储分离开来，从而使您能够独立地对计算和存储进行扩展并充分利用 Amazon S3 的分层存储。借助 EMR，您可以预置一个、数百个或者数千个计算实例或容器，以处理任意规模的数据。实例数量可以通过可根据使用情况管理集群大小的 Auto Scaling 自动增加或减少，并且您只需为实际使用量付费。

可靠

减少在调整和监控集群上所花的时间。EMR 已针对云进行调整，可持续监控您的集群 — 重试失败的任务并自动更换性能不佳的实例。集群高度可用，并且可在发生节点故障时自动进行故障转移。EMR 提供最新的稳定开源软件版本，因此，您无需管理更新和错误修复，这就减少了问题以及维护环境所需花费的精力。

安全

EMR 将会自动配置 EC2 防火墙设置，以控制实例的网络访问权限，并在 Amazon Virtual Private Cloud（VPC）中启动集群。服务器端加密或客户端加密可与 Amazon Key Management Service 或您自己的客户自主管理型密钥搭配使用。EMR 使您能够轻松启用其他加密选项，如传输中和静态加密，以及通过 Kerberos 进行强身份验证。您可以使用 Amazon Lake Formation 或 Apache Ranger 对数据库、表和列应用精细数据访问控制。

灵活

您可以完全控制您的 EMR 集群和单独的 EMR 作业。您可以使用自定义 Amazon Linux AMI 启动 EMR 集群，并使用脚本轻松配置集群，以安装其他第三方软件包。EMR 使您能够动态重新配置正在运行的集群上的应用程序，无需重新启动集群。此外，您还可以为单独的作业自定义执行环境，方法是在 Docker 容器中指定库和运行时依赖项并将它们与作业一起提交。

使用场景

EMR 可用于快速且经济高效地执行数据转换工作负载 (ETL)，如对大型数据集进行排序、聚合和联接。

使用 Apache Spark 和 Apache Hive 分析 Amazon S3 中的点击流数据，以细分用户、了解用户偏好并投放更有效的广告。

使用 EMR 的内置机器学习工具，包括 Apache Spark MLlib、TensorFlow 和 Apache MXNet，实施可扩展机器学习算法，并使用自定义 AMI 和引导操作轻松添加您的首选库和工具，以创建您自己的预测分析工具集。

使用 Apache Spark Streaming 和 Apache Flink 实时分析 Apache Kafka、Amazon Kinesis 或其他流式传输数据源中的事件，以便在 EMR 上创建长期运行、高度可用且容错的流式传输数据管道。

EMR 可用于快速、高效地处理海量的基因组学数据和其他大型科学数据集。研究人员可以 Amazon Web Services 上免费托管的基因组学数据。

Amazon Elastic MapReduce

概述
功能
EMR 工作负载
定价
常见问题

Amazon Elastic MapReduce

概述

优势

使用场景

关于我们

产品与解决方案

资源与支持

管理账户

Amazon Elastic MapReduce

概述

优势

使用场景

提取、转换、加载 (ETL)

点击流分析

机器学习

实时流式传输

基因组学

关于我们

产品与解决方案

资源与支持

管理账户