重温 2024 年亚马逊云科技 re:Invent 的精彩瞬间,一键查看主题演讲及创新讲座的精彩回放

 ✕

首页  »  产品  »  EMR

Amazon Elastic MapReduce

托管的 Hadoop 框架

Amazon Elastic MapReduce (Amazon EMR) 是一种 Web 服务,让您能够轻松快速并经济高效地处理大量数据。Amazon EMR 是行业领先的云大数据平台,用于使用 Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi 和 Presto 之类的开源工具处理海量数据。Amazon EMR 可自动执行预置容量和调整集群之类的耗时任务,从而使您能够轻松设置、运营和扩展您的大数据环境,并使用开源框架 Hadoop 在可调整大小的 Amazon EC2 实例集群中分发数据和处理任务。Amazon EMR 可用于各种应用程序中,包括日志分析、Web 索引、数据仓库、机器学习、财务分析、科学模拟和生物信息学。客户每年启动数以百万的 Amazon EMR 集群。

Amazon Elastic MapReduce (Amazon EMR) 是一种 Web 服务,让您能够轻松快速并经济高效地处理大量数据。Amazon EMR 是行业领先的云大数据平台,用于使用 Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi 和 Presto 之类的开源工具处理海量数据。Amazon EMR 可自动执行预置容量和调整集群之类的耗时任务,从而使您能够轻松设置、运营和扩展您的大数据环境,并使用开源框架 Hadoop 在可调整大小的 Amazon EC2 实例集群中分发数据和处理任务。Amazon EMR 可用于各种应用程序中,包括日志分析、Web 索引、数据仓库、机器学习、财务分析、科学模拟和生物信息学。客户每年启动数以百万的 Amazon EMR 集群。

优势

简单易用
您可以使用集成式开发环境 (IDE) EMR Studio 来轻松开发、可视化和调试使用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。
成本低廉

EMR 定价简单并且可预测:您需要按照每秒使用的每个实例费率付费,最低收费时长为 1 分钟。每小时只需 0.187 USD 即可启动 10 个节点的 EMR 集群。您可以通过为临时工作负载选择 Amazon EC2 Spot 实例并为长时间运行的工作负载选择预留实例来节省实例成本。

弹性
与本地集群的僵化基础设施不同,EMR 将计算和存储分离开来,从而使您能够独立地对计算和存储进行扩展并充分利用 Amazon S3 的分层存储。借助 EMR,您可以预置一个、数百个或者数千个计算实例或容器,以处理任意规模的数据。实例数量可以通过可根据使用情况管理集群大小的 Auto Scaling 自动增加或减少,并且您只需为实际使用量付费。
可靠
减少在调整和监控集群上所花的时间。EMR 已针对云进行调整,可持续监控您的集群 — 重试失败的任务并自动更换性能不佳的实例。集群高度可用,并且可在发生节点故障时自动进行故障转移。EMR 提供有最新的稳定开源软件版本,因此,您无需管理更新和错误修复,这就减少了问题以及维护环境所需花费的精力。
安全

EMR 将会自动配置 EC2 防火墙设置,以控制实例的网络访问权限,并在 Amazon Virtual Private Cloud (VPC) 中启动集群。 服务器端加密客户端加密可与 Amazon Key Management Service 或您自己的客户管理的密钥搭配使用。EMR 使您能够轻松启用其他加密选项,如传输中和静态加密,以及通过 Kerberos 进行强身份验证。您可以使用 Amazon Lake Formation 或 Apache Ranger 对数据库、表和列应用精细数据访问控制。

灵活
您可以完全控制您的 EMR 集群和单独的 EMR 任务。您可以使用自定义 Amazon Linux AMI 启动 EMR 集群,并使用脚本轻松配置集群,以安装其他第三方软件包。EMR 使您能够动态重新配置正在运行的集群上的应用程序,无需重新启动集群。此外,您还可以为单独的任务自定义执行环境,方法是在 Docker 容器中指定库和运行时依赖项并将它们与任务一起提交。

优势

简单易用

您可以使用集成式开发环境 (IDE) EMR Studio 来轻松开发、可视化和调试使用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。

成本低廉

EMR 定价简单并且可预测:您需要按照每秒使用的每个实例费率付费,最低收费时长为 1 分钟。每小时只需 0.187 USD 即可启动 10 个节点的 EMR 集群。您可以通过为临时工作负载选择 Amazon EC2 Spot 实例并为长时间运行的工作负载选择预留实例来节省实例成本。

弹性

与本地集群的僵化基础设施不同,EMR 将计算和存储分离开来,从而使您能够独立地对计算和存储进行扩展并充分利用 Amazon S3 的分层存储。借助 EMR,您可以预置一个、数百个或者数千个计算实例或容器,以处理任意规模的数据。实例数量可以通过可根据使用情况管理集群大小的 Auto Scaling 自动增加或减少,并且您只需为实际使用量付费。

可靠

减少在调整和监控集群上所花的时间。EMR 已针对云进行调整,可持续监控您的集群 — 重试失败的任务并自动更换性能不佳的实例。集群高度可用,并且可在发生节点故障时自动进行故障转移。EMR 提供有最新的稳定开源软件版本,因此,您无需管理更新和错误修复,这就减少了问题以及维护环境所需花费的精力。

安全

EMR 将会自动配置 EC2 防火墙设置,以控制实例的网络访问权限,并在 Amazon Virtual Private Cloud (VPC) 中启动集群。 服务器端加密客户端加密可与 Amazon Key Management Service 或您自己的客户管理的密钥搭配使用。EMR 使您能够轻松启用其他加密选项,如传输中和静态加密,以及通过 Kerberos 进行强身份验证。您可以使用 Amazon Lake Formation 或 Apache Ranger 对数据库、表和列应用精细数据访问控制。

灵活

您可以完全控制您的 EMR 集群和单独的 EMR 任务。您可以使用自定义 Amazon Linux AMI 启动 EMR 集群,并使用脚本轻松配置集群,以安装其他第三方软件包。EMR 使您能够动态重新配置正在运行的集群上的应用程序,无需重新启动集群。此外,您还可以为单独的任务自定义执行环境,方法是在 Docker 容器中指定库和运行时依赖项并将它们与任务一起提交。

使用场景

提取、转换、加载 (ETL)
EMR 可用于快速且经济高效地执行数据转换工作负载 (ETL),如对大型数据集进行排序、聚合和联接。
点击流分析
使用 Apache Spark 和 Apache Hive 分析 Amazon S3 中的点击流数据,以细分用户、了解用户偏好并投放更有效的广告。
机器学习
使用 EMR 的内置机器学习工具,包括 Apache Spark MLlib、TensorFlow 和 Apache MXNet,实施可扩展机器学习算法,并使用自定义 AMI 和引导操作轻松添加您的首选库和工具,以创建您自己的预测分析工具集。
实时流式传输
使用 Apache Spark Streaming 和 Apache Flink 实时分析 Apache Kafka、Amazon Kinesis 或其他流式传输数据源中的事件,以便在 EMR 上创建长期运行、高度可用且容错的流式传输数据管道。
基因组学
EMR 可用于快速、高效地处理海量的基因组学数据和其他大型科学数据集。研究人员可以 Amazon Web Services 上免费托管的基因组学数据。

使用场景

提取、转换、加载 (ETL)

EMR 可用于快速且经济高效地执行数据转换工作负载 (ETL),如对大型数据集进行排序、聚合和联接。

点击流分析

使用 Apache Spark 和 Apache Hive 分析 Amazon S3 中的点击流数据,以细分用户、了解用户偏好并投放更有效的广告。

机器学习

使用 EMR 的内置机器学习工具,包括 Apache Spark MLlib、TensorFlow 和 Apache MXNet,实施可扩展机器学习算法,并使用自定义 AMI 和引导操作轻松添加您的首选库和工具,以创建您自己的预测分析工具集。

实时流式传输

使用 Apache Spark Streaming 和 Apache Flink 实时分析 Apache Kafka、Amazon Kinesis 或其他流式传输数据源中的事件,以便在 EMR 上创建长期运行、高度可用且容错的流式传输数据管道。

基因组学

EMR 可用于快速、高效地处理海量的基因组学数据和其他大型科学数据集。研究人员可以 Amazon Web Services 上免费托管的基因组学数据。

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域