本页面中描述的服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国区域的亚马逊云科技服务入门页面。中国区域的亚马逊云科技服务入门页面中,仅关于特定服务的“区域可用性”和“功能可用性和实现差异”的部分(但不包括其通过超链接援引的内容)构成您与光环新网或西云数据之间就您使用亚马逊云科技中国(北京)区域或亚马逊云科技中国(宁夏)区域服务达成的协议(“协议”)项下的“文档”的一部分,而该入门页面的其他内容不构成“协议”的任何部分。

Amazon EMR 文档

易于使用
 
Amazon EMR旨在简化大数据环境和应用程序的构建和操作。EMR相关功能包括预置、托管扩展和重新配置集群,以及用于协作开发的EMR Studio。
 
只需几分钟即可预置集群
 

您可以在几分钟内启动EMR集群。该服务旨在自动进行基础设施预置、集群设置、配置或优化。EMR负责处理这些任务,而您的团队则可以集中精力开发别具一格的大数据应用程序。
 
扩展资源以满足业务需求
 
您可以使用EMR托管扩展策略设置扩展和缩减,使EMR集群自动管理计算资源,以满足您的使用需求和性能需求。这样可提高集群利用率。
  
EMR Studio是一个集成开发环境(IDE),使数据科学家和数据工程师能够轻松地开发、可视化和调试用R、Python、Scala和PySpark编写的数据工程和数据科学应用程序。EMR Studio提供托管的Jupyter笔记本,以及Spark UI和YARN Timeline Service等工具,可简化调试。
 
高可用性

 
您可为YARN、HDFS、Apache Spark、Apache HBase和Apache Hive等多主机应用程序配置高可用性。在EMR中启用多主机支持后,EMR旨在配置这些应用程序以实现高可用性,并且在出现故障时,自动将故障转移到备用主机,这样您的集群就不会中断,并且会将主机节点置放在不同的机架中以降低同时出现故障的风险。监控主机以检测故障,当检测到问题时,自动预置新主机并将其添加到集群中。
 
EMR托管扩展
 
通过EMR托管扩展,可以为集群指定最小和最大计算限制,Amazon EMR会自动调整其大小,以实现最佳性能和资源利用率。EMR托管扩展旨在与集群上运行的工作负载相关的关键指标连续进行采样。
 
重新配置正在运行的集群
 
您现在可以修改在EMR集群上运行的应用程序的配置,包括Apache Hadoop、Apache Spark、Apache Hive和Hue,而无需重新启动集群。EMR应用程序重新配置功能让您可以即时修改应用程序,而无需关闭或重新创建集群。Amazon EMR将应用您的新配置,并正常重启重新配置的应用程序。您可以通过控制台、软件开发工具包(SDK)或CLI应用配置。
 
弹性
 
Amazon EMR使您能够预配置所需的容量,以及自动或手动添加和移除容量。在处理要求不确定或者不能预料的情况下,这将非常有用。例如,如果您大多数的处理发生在夜间,那么,您白天可能需要100个实例,而夜间则可能需要500个实例。另一种情况是,您可能在短期内需要巨大的容量。借助Amazon EMR,您可以预置实例,自动扩展以满足计算要求,并在作业完成后关闭集群。
 
 添加或移除容量有两个主要选项:

  •  部署多个集群:如果您需要增加容量,可以轻松地启动新的集群,并在不再需要时予以终止。集群的使用数量没有限制。在拥有多个用户或者应用程序的情况下,需要使用多个集群。例如,可以将您的输入数据存储在Amazon S3中,并为需要处理该数据的每个应用程序启动一个集群。可以针对CPU优化一个集群,并针对存储优化另一个集群等等。
  • 调整运行集群的大小:EMR托管扩展旨在自动扩展或手动调整运行集群。您可能需要向外扩展集群以临时提升其处理能力,或者在集群中扩展以在具有空闲容量时节约成本。例如,一些客户在出现批处理时会给集群添加数以百计的实例,并在处理完成时移除这些额外添加的实例。向集群添加实例时,只要预配置的容量可用,EMR现在便可对其加以利用。向内扩展时,EMR将主动选择空闲节点以减少对正在运行的任务的影响。

Amazon EC2 Spot集成
 
Amazon EMR可让您使用Spot 实例,可以同时节省您的时间和资金。Amazon EMR集群包括运行HDFS的“核心节点”和不运行HDFS的“任务节点”;任务节点非常适合Spot实例,因为Spot价格上涨的话,您就会失去这些实例,但不会丢失HDFS中存储的数据。结合实例队列、Spot实例的分配策略、EMR托管扩展和更多多样化的选项,您可以优化EMR的弹性和成本。
 
Amazon S3集成
 
借助EMR文件系统(EMRFS),EMR集群将Amazon S3用作Hadoop的对象存储。您可以将数据存储在Amazon S3中并使用多个Amazon EMR集群处理同一个数据集。每个集群都可以针对特定的工作负荷进行优化,这要比单个集群为多个要求不同的工作负荷提供服务要高效得多。例如,您可以针对I/O优化一个集群,并针对CPU优化另一个集群,每个集群都处理Amazon S3中同样的数据集。另外,将输入与输出数据存储在Amazon S3中,还可以在不再需要的时候关闭集群。
 
EMRFS支持使用Amazon Key Management Service(KMS)或客户管理的密钥进行S3服务器端或S3客户端加密,同时提供可选的一致性视图,用于检查元数据中所追踪对象的列表和写后读一致性。此外,Amazon EMR集群可支持使用EMRFS和HDFS,因此,您不必在集群上的存储和Amazon S3之间作选择。
 
Amazon Glue数据目录集成

您可以将Amazon Glue数据目录作为托管元数据存储库使用,以存储Apache Spark和Apache Hive的外部表元数据。此外,它还可提供自动架构发现和架构版本历史记录,让您可以在集群外的Amazon S3上保留外部表的元数据。
 
灵活的数据存储
 
借助Amazon EMR,您可以利用多种数据存储,包括Amazon S3、Hadoop分布式文件系统(HDFS)和Amazon DynamoDB。
 
Amazon S3
 
Amazon S3是具有高度持久性、可扩展性、安全性、快速且物美价廉的存储服务。借助EMR文件系统(EMRFS),Amazon EMR可以将Amazon S3安全高效地用作Hadoop的对象存储。Amazon EMR对Hadoop进行了大量的改进,因此您可以无缝地处理Amazon S3中存储的大量数据。而且,EMRFS还可以提供一致的视图,用于检查Amazon S3中对象的列表和写后读一致性。EMRFS支持S3服务器端或S3客户端加密,以处理加密的Amazon S3对象,您可以使用Amazon Key Management Service(KMS)或自定义的密钥供应商。
 
在启动集群时,Amazon EMR会从Amazon S3向集群中的每个实例流式传输各种数据,并立即进行处理。将数据存储在Amazon S3中并使用Amazon EMR进行处理的一个优点是:您可以使用多个集群处理相同的数据。例如,您可能有一个针对内存进行优化的Hive开发集群和一个针对CPU进行优化的Pig生产集群,两个集群都使用同一个输入数据集。

Hadoop 分布式文件系统(HDFS)
 
HDFS是一种Hadoop文件系统。Amazon EMR的当前拓扑群将其实例分为以下3个逻辑实例组:主组,可运行YARN资源管理器和HDFS名称节点服务;核心组,可运行HDFS DataNode Daemon和YARN节点管理器服务;以及任务组,可运行YARN节点管理器服务。Amazon EMR将HDFS安装在与核心组中的实例相关联的存储上。

每个EC2实例都附带固定的存储量(称为“实例存储”)。您还可以向实例添加Amazon EBS卷,以在实例上自定义存储。Amazon EMR允许您添加通用型(SSD)、预配置(SSD)和磁性卷类型。添加到EMR集群的EBS卷在集群关闭后不会保留数据。您终止集群后,EMR将自动清除卷。
 
您也可以使用Amazon EMR安全配置启用完整的HDFS加密,或者使用Hadoop密钥管理服务器手动创建HDFS加密区。在将Amazon KMS指定为密钥提供程序时,可以使用安全性配置选项来加密EBS根设备和存储卷。
 
Amazon DynamoDB
 
Amazon DynamoDB是一种托管的NoSQL数据库服务。Amazon EMR与Amazon DynamoDB直接集成,因此您可以处理Amazon DynamoDB中存储的数据,并在Amazon EMR中的Amazon DynamoDB、Amazon S3和HDFS间传输数据。
 
其他亚马逊云科技数据存储
 
您还可以使用Amazon Relational Database Service(一种旨在云中设置、操作和扩展关系数据库的Web服务)、Amazon Glacier(一种存储服务,为数据存档和备份提供安全和持久的存储)以及Amazon Redshift(一种托管数据仓库服务)。
 
选择您喜爱的开源应用程序
 
借助Amazon EMR发布的版本,您可以在EMR集群中选择和使用最新的开源项目,包括Apache Spark和Hadoop生态系统中的应用程序。软件由Amazon EMR进行安装和配置,使您能够投入更多时间来提高数据价值,而不用操心基础设施和管理任务。
 
大数据工具
 
Amazon EMR支持Hadoop工具,如Apache Spark、Apache Hive、Presto和Apache HBase。数据科学家使用EMR运行深度学习和机器学习工具(如TensorFlow、Apache MXNet),并且通过引导操作,可以添加特定于使用案例的工具和库。数据分析师使用EMR Studio、Hue和EMR Notebooks进行交互式开发、编写Apache Spark作业,并向Apache Hive和Presto提交SQL查询。数据工程师使用EMR进行数据管道开发和数据处理,并使用Apache Hudi来简化需要进行记录级别插入、更新和删除操作的增量数据管理和数据隐私使用案例。
 
数据处理和机器学习
 
Apache Spark是Hadoop生态系统中的引擎,可以处理大量数据集,使用内存中的容错恢复分布式数据集(RDD)和有向无环图(DAG)来定义数据转换。Spark还包括Spark SQL、Spark Streaming、MLlib和GraphX。
 
Apache Flink是一种流式处理数据流引擎,可让您对高吞吐量数据源运行实时流处理。该引擎还支持无序事件的事件时间语义、只执行一次语义、回压控制及针对写入流式处理和批处理应用程序优化过的API。
  
TensorFlow是一种用于机器智能和深度学习应用程序的开源符号数学库。TensorFlow将多种机器学习和深度学习模型和算法捆绑在一起,可以为许多不同的使用案例训练和运行深度神经网络。
 
记录级别Amazon S3数据管理
 
Apache Hudi是一种开源数据管理框架,用于简化增量数据处理和数据管道开发工作。借助Apache Hudi,您可以在 Amazon S3中管理记录级别的数据,从而简化变更数据捕获(CDC)和流式数据摄入操作,为处理需要记录级别更新和删除的数据隐私使用案例提供了框架。
 
SQL
 
Apache Hive是在Hadoop之上运行的一种开源数据仓库和分析软件包。Hive由基于SQL的语言Hive QL操作,允许用户构建、汇总和查询数据。Hive QL的功能超出标准SQL,支持一流的map/reduce函数和JSON与Thrift等复杂的由用户定义的可扩展数据类型。该功能能够处理复杂的非结构化数据源,如文本文档和日志文件。Hive支持通过在Java中编写的用户定义函数使用用户扩展。Amazon EMR对Hive进行了无数的改进,包括直接集成Amazon DynamoDB和Amazon S3。例如,您可以使用Amazon EMR自动从Amazon S3载入表分区,并向Amazon S3中的表写入数据,而无需使用临时文件;您也可以访问Amazon S3中的资源,如适用于自定义map/reduce操作和其他库的脚本。
 
Presto是一种开源的分布式SQL查询引擎,针对低延迟的临时数据分析进行了优化。它支持ANSI SQL标准,包括复杂查询、聚合、连接和窗口函数。Presto可处理来自多个数据源(包括Hadoop分布式文件系统(HDFS)和Amazon S3)的数据。
 
Apache Phoenix具备ACID事务处理功能,可以实现对存储在Apache HBase中的数据的低延迟SQL。您可以创建二级索引以获取更多性能,并针对同一底层HBase表创建不同的视图。
 
NoSQL
 
Apache HBase是一种仿效Google BigTable的开源、非关系型分布式数据库。它是Apache软件基金会Hadoop项目的一部分,基于Hadoop分布式文件系统(HDFS)运行,为Hadoop提供类似BigTable的功能。HBase为您提供了一种用列式压缩和存储方式来存储大量稀疏数据的高效容错方法。此外,HBase会将数据缓存到内存中,因此可提供数据的快速查询。在连续写入操作方面对HBase进行了优化,批量插入、更新和删除等操作的效率很高。HBase可与Hadoop配合,从而共享其文件系统并用作Hadoop工作的直接输入和输出。HBase还与Apache Hive集成,支持对HBase表进行类似SQL的查询、与基于Hive的表结合并支持Java数据库连接 (JDBC)。借助EMR,您可以使用S3作为HBase的数据存储,从而缩减成本并降低操作复杂性。如果您使用HDFS作为数据存储,则可以将HBase备份至S3,或者从以前创建的备份恢复HBase。
 
交互式分析
 
EMR Studio是一个集成开发环境(IDE),使数据科学家和数据工程师能够开发、可视化和调试用R、Python、Scala和PySpark编写的数据工程和数据科学应用程序。EMR Studio提供完全托管的Jupyter笔记本,以及Spark UI和YARN Timeline Service 等工具,可简化调试。
 
Hue是面向Hadoop的开源用户界面,可以让您更轻松地运行和开发Hive查询、管理HDFS中的文件、运行和开发Pig脚本以及管理表。EMR上的Hue还与Amazon S3集成,因此您可以直接对S3进行查询,并在HDFS和Amazon S3之间轻松地传输文件。
 
Jupyter Notebook是一种开源Web应用程序,可用于创建和共享包含实时代码、方程式、可视化效果和叙述文本的文档。借助JupyterHub,您可以托管单用户Jupyter Notebook服务器的多个实例。使用JupyterHub创建EMR集群时,EMR会在集群的主节点上创建Docker容器。JupyterHub、Jupyter所需的所有组件和Sparkmagic都在容器中运行。
 
Apache Zeppelin是一种开源GUI,可创建交互式和协作式笔记本,以便使用Spark进行数据浏览。您可以使用Scala、Python、SQL(使用Spark SQL)或HiveQL操作数据并快速可视化结果。Zeppelin笔记本可在多名用户间共享,并可将可视化表示发布到外部控制面板。
 
日程安排和工作流程
 
Apache Oozie是一种适用于Hadoop的工作流程计划程序,您可在其中创建操作的有向无环图(DAG)。此外,您还可以按操作或时间触发Hadoop工作流程。Amazon Step Functions允许您向应用程序添加无服务器工作流程自动化功能。工作流程的步骤可在任何地方运行,包括在Amazon Lambda函数中、在Amazon Elastic Compute Cloud(EC2)上或本地。
 
其他项目和工具
 
EMR还支持各种其他常见的应用程序和工具,如R、Apache Pig(数据处理和ETL)、Apache Tez(复杂的DAG执行)、Apache MXNet(深度学习)、Ganglia(监控)、Apache Sqoop(关系数据库连接器)、HCatalog(表和存储管理)等。Amazon EMR团队负责维护引导操作的开源存储库,该存储库可以用于安装其他软件,配置集群,或者作为示例编写您自己的引导操作。
 
数据访问控制
 
默认情况下,Amazon EMR应用程序流程在调用其他亚马逊云科技服务时使用EC2实例配置文件。对于多租户集群,Amazon EMR提供了三个选项来管理用户对Amazon S3数据的访问。
 
与Amazon Lake Formation的集成允许您定义和管理Amazon Lake Formation中的精细授权策略,以访问Amazon Glue数据目录中的数据库、表和列。您可以对通过Amazon EMR Notebooks和Apache Zeppelin提交的用于交互式EMR Spark工作负载的作业实施授权策略,并将审核事件发送到Amazon CloudTrail。通过启用此集成,您还可以从与安全断言标记语言(SAML)2.0兼容的企业身份验证系统中启用到EMR Notebooks或Apache Zeppelin的联合单点登录。
 
与Apache Ranger的本机集成允许您设置新的或现有的Apache Ranger服务器,以定义和管理精细授权策略,从而使用户可以通过Hive Metastore访问Amazon S3数据的数据库、表和列。Apache Ranger是一个开源工具,用于在Hadoop平台上启用、监视和管理全面的数据安全。
 
通过本机集成,您可以在Apache Ranger Policy Admin服务器上定义三种授权策略。您可以为Hive设置数据表、数据列和数据行级别的授权,为Spark设置数据表和数据列级别的授权,以及为Amazon S3设置前缀和对象级别的授权。Amazon EMR会在集群上自动安装和配置相应的Apache Ranger插件。这些Ranger插件与Policy Admin服务器同步,以定义授权策略,实施数据访问控制,并将审核事件发送到Amazon CloudWatch Logs。
 
其他功能
 
为您的集群选择正确的实例

 
您可以根据应用程序的要求,选择要在集群中预置的EC2实例类型(标准型、内存增强型、CPU增强型、高I/O型等)。您拥有每个实例的根访问权限,可完全自定义集群,以适合您的要求。
 
调试应用程序
 
在集群上启用调试时,Amazon EMR会将日志文件存档到Amazon S3,然后制作这些文件的索引。随后,您可以使用控制台中的图形界面直观地浏览日志并查看任务历史记录。
 
监控您的集群
 
您可以使用Amazon CloudWatch监控自定义的Amazon EMR指标,如制作运行的map和reduce任务的平均数量。您还可以在这些指标上设置警报。
 
响应事件
 
您可以使用Amazon CloudWatch Events中的Amazon EMR事件类型来响应Amazon EMR集群中的状态更改。通过使用可以快速设置的简单规则,您可以匹配各种事件并将其发送到Amazon SNS主题、Amazon Lambda函数和Amazon SQS队列等不同目标位置。
 
深度学习
 
使用Apache MXNet等常见的深度学习框架来定义、训练和部署深度神经网络。您可以在具有GPU实例的Amazon EMR集群上使用这些框架。
 
控制集群的网络访问
 
您可以在Amazon Virtual Private Cloud(VPC)中启动集群,这是亚马逊云科技云的逻辑隔离部分。您可以完全掌控您的虚拟联网环境,包括选择自己的IP地址范围、创建子网以及配置路由表和网络网关。
 
管理用户、权限和加密
 
您可以使用Amazon Identity and Access Management(IAM)工具(如“IAM用户和角色”)控制访问和权限。例如,您可以为某些用户提供集群的读取权限,但不提供写入权限。另外,您还可以使用Amazon EMR安全配置设置各种静态加密和正在传输的加密选项,其中包括Amazon S3加密支持和Kerberos身份验证。
  
安装其他软件
 
您可以使用引导操作或运行Amazon Linux 的自定义Amazon系统映像(AMI)在您的集群上安装其他软件。引导操作指的是Amazon EMR启动集群时在集群节点上运行的脚本。它们在Hadoop启动和节点开始处理数据之前运行。此外,您还可以预加载和使用自定义Amazon Linux AMI上的软件。 
 
复制数据
 
您可以将数据从Amazon S3移到HDFS,从HDFS移到Amazon S3,并使用Amazon EMR的S3DistCp在Amazon S3存储桶之间进行移动。S3DistCp是开放源工具Distcp的扩展应用,它可使用MapReduce移动大量数据。
 
自定义JAR
 
写入Java程序、针对您希望使用的Hadoop版本进行编译并上载到Amazon S3。然后,您就可以使用Hadoop JobClient界面将Hadoop任务提交到集群。
  
Amazon EMR Studio
 
EMR Studio 是一个集成开发环境(IDE),使数据科学家和数据工程师能够开发、可视化和调试用R、Python、Scala和PySpark编写的数据工程和数据科学应用程序。
 
EMR Studio 提供托管式Jupyter笔记本,以及诸如Spark UI和YARN Timeline Service等工具,可简化调试。EMR Studio使用Amazon Single Sign-On,允许您使用企业凭证直接登录,而无需登录Amazon控制台。数据科学家和分析人员可以安装自定义内核和库,使用代码库(例如GitHub 和BitBucket)与同事协作,或者使用Apache Airflow或Amazon Managed Workflows for Apache Airflow等编排服务,将参数化笔记本作为计划工作流的一部分运行。
 
EMR Studio内核和应用程序在EMR集群上运行,因此您可以利用性能优化的适用于Apache Spark的Amazon EMR运行时,获得分布式数据处理带来的优势。管理员可以设置EMR Studio,以便分析师可以在现有EMR集群上运行其应用程序,或使用EMR的预定义Amazon CloudFormation模板创建新集群。
 
优势:
 
简单易用

 
EMR Studio旨在简化EMR集群上的应用程序交互。您可以使用Amazon Single Sign-On,以企业凭证登录EMR Studio,而无需登录Amazon控制台或集群。您可以使用笔记本以交互方式探索、处理和可视化数据,构建和计划管道以及调试应用程序,而无需登录EMR集群。
 
托管的Jupyter笔记本
 
借助EMR Studio,您可以开始使用托管的Jupyter记事本在R、Python、Scala和PySpark中开发分析和数据科学应用程序。您可以使用预先配置的模板将笔记本连接到现有的EMR群集或自动配置群集以运行作业。您可以使用存储库与其他人协作,并直接从记事本安装自定义Python库或内核。

轻松构建应用程序
 
EMR Studio可让您从原型设计转向投入生产。可以从代码存储库触发管道,只需使用Apache Airflow或Amazon Managed Workflows for Apache Airflow等编排工具将笔记本作为管道运行,或者只需单击一下即可将笔记本连接至更大规模的集群。
 
简化调试
 
借助EMR Studio,您无需登录到集群,即可调试活动和已终止集群的作业与访问日志。您可以从EMR Studio直接使用原生应用程序接口,例如Spark UI和YARN Timeline Service。EMR Studio还可让您使用集群状态、创建时间和集群ID等筛选条件快速定位要调试的集群或作业。
  
使用案例:
 
构建数据科学和工程应用程序
 
使用EMR Studio,您可以在不登录亚马逊云科技控制台的情况下直接登录到托管笔记本,在几秒钟内启动笔记本,使用示例笔记本登录,并执行数据探索。通过GitHub和其他存储库共享笔记本,您可以与同事协作。您还可以通过从笔记本加载自定义内核和Python库来自定义环境。 
 
部署生产管道
 
在EMR Studio中,您可以使用代码存储库触发管道。还可以参数化和链接笔记本以构建管道。可以使用Apache Airflow或Amazon Managed Workflows for Apache Airflow等工作流程编排服务,将笔记本集成到计划的工作流程中。EMR Studio还允许您将笔记本重新连接至更大规模的集群以运行作业。
 
简化应用程序调试
 
在EMR Studio中,您可以通过笔记本UI调试笔记本应用程序。还可以首先使用集群状态等筛选条件缩小集群范围来调试管道,然后通过尽可能少的单击开启打开Spark UI、Tez UI和Yarn Timeline Service 等原生调试UI,从中诊断活动和已终止集群上的作业。
 
Amazon EMR Notebooks
 
Amazon EMR Notebooks是基于Jupyter和Jupyter-lab笔记本的托管式环境,让用户可以对数据进行交互式分析与可视化,与同事协作,并使用EMR集群构建应用程序。EMR Notebooks旨在为Apache Spark而量身设计。它支持Spark Magic内核,允许您在EMR集群上使用PySpark、Spark SQL、Spark R和Scala等语言远程运行查询和代码。
  
使用EMR Notebooks无需管理软件或实例。您可以将笔记本附加到现有集群,也可以直接从控制台预置新集群。您可以将多个笔记本附加到单个集群,分离笔记本并将它们重新附加到新集群。
 
EMR Notebooks允许您:
 
1       直接从您的笔记本监控与调试Spark任务。
2       在运行的EMR集群上安装笔记本范围内的库。
3       关联Git存储库和您的笔记本以控制版本,并简化代码协作和重复使用
4       使用nbdime实用工具来比较与合并两个笔记本
 
Amazon EMR Serverless

Amazon EMR Serverless是Amazon EMR中的一个无服务器选项,旨在帮助您运行开源大数据分析框架,而无需配置、管理和扩展集群或服务器。选择要为应用程序运行的开源框架,如Apache Spark和Apache Hive,EMR Serverless可以自动调配和管理底层计算和内存资源,包括扩展这些资源以满足不断变化的数据量和处理需求。

使用案例:
 
变量工作负载

 
使用EMR Serverless,您可以根据工作负载需求的变化自动调整应用程序资源,而无需预先配置所需的计算能力和内存。
 
SLA敏感数据管道
 
您可以在EMR Serverless中预初始化应用程序资源,以帮助加快SLA敏感数据管道的响应时间。
 
开发和测试环境
 
EMR Serverless可以帮助您快速启动一个开发和测试环境,该环境可以根据不可预测的使用情况自动扩展。
 
Amazon EMR on Amazon EKS
 
Amazon EMR on Amazon EKS允许您在Amazon Elastic Kubernetes Service(EKS)上按需提交Apache Spark作业,而无需配置集群。使用EMR on EKS,您可以在同一Amazon EKS集群上与其他基于Kubernetes的应用程序整合分析工作负载,以提高资源利用率并简化基础设施管理。
  
借助Amazon EMR on Amazon EKS,您可以在所有应用程序中共享计算和内存资源,并使用一组Kubernetes工具集中监控和管理基础设施。您还可以使用单个EKS集群来运行需要不同Apache Spark版本和配置的应用程序,并利用EMR提供的自动化资源调配、扩展、更快的运行时以及开发和调试工具。
 
优势:
 
简化管理
 
Apache Spark on EKS的EMR优势包括Apache Spark 2.4和3.0的托管版本、自动配置、扩展、性能优化运行时,以及EMR Studio等工具,用于编写作业,以及Apache Spark UI用于调试。
 
优化性能
 

通过在EKS上运行分析应用程序,您可以重新使用共享Kubernetes集群中的现有EC2实例,并避免创建专门用于分析的新EC2实例集群的启动时间。
 
使用案例:
 
集中资源管理
 
通过EMR on EKS,您可以使Apache Spark的供应、管理和扩展自动化,并使用一组工具集中管理和监控基础架构。
 
工作负载的同一位置
 
在与其他应用程序工作负载相同的EKS集群上运行需要不同框架、版本和配置的多个EMR工作负载。
 
快速使用新的EMR版本

 
EMR on EKS为开发、故障排除和优化您的分析提供了管理经验。您可以在同一EKS集群上部署配置并启动作业以测试新的EMR版本,而无需分配专用资源。
 
其他信息
 

有关服务控制、安全特性及功能的其他信息,包括有关存储、检索、修改、限制和删除数据的信息,请参见https://docs.amazonaws.cn/。以上链接包含的信息不构成光环新网关于亚马逊云科技(北京区域)的客户协议或西云数据关于亚马逊云科技(宁夏区域)的客户协议的“文档”的一部分,也不构成您与光环新网或西云数据之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域