- 产品›
- Amazon EMR›
- Amazon EMR 功能
Amazon EMR 上的 Apache Spark
概述
功能与优点
全部打开EMR 具有适用于 Apache Spark 的 Amazon EMR 运行时,这是针对 Apache Spark 的性能优化型运行时环境,默认情况下在 Amazon EMR 集群上处于活动状态。适用于 Apache Spark 的 Amazon EMR 运行时可能比无 EMR 运行时的集群更加快速,其 API 和标准 Apache Spark 100% 兼容。这项性能优化意味着您的工作负载可以更快速运行并节约您的计算成本,而无需对您的应用程序进行任何更改。
通过使用有向无环图 (DAG) 执行引擎,Spark 可以为数据转换创建高效的查询计划。Spark 还会在内存中存储输入、输出和中间数据并将其作为弹性数据帧,这实现了快速处理而不会产生输入/输出成本,并且提升迭代或交互式工作负载的性能。
通过 EMR Step API 提交 Apache Spark 任务,使用 Spark 和 EMRFS 直接访问 S3 中的数据,使用 EC2 Spot 容量来节约成本,使用 EMR 托管式扩缩来动态添加与移除容量,以及启动长期运行或临时集群来匹配您的工作负载。您还可以使用 EMR 安全配置来轻松配置 Spark 加密和 Kerberos 身份验证。除此以外,您可以使用 Amazon Glue 数据目录来存储 Spark SQL 表元数据或结合使用 Amazon SageMaker 和您的 Spark 机器学习管道。EMR 会在 Hadoop YARN 上安装和管理 Spark,您还可以在集群中添加其他大数据应用程序。 EMR 和 Apache Hudi 让您可以更高效地管理更改数据捕获 (CDC),并通过简化记录删除帮助更好地遵守相关隐私法规,如中国的《个人信息保护法》。