EMR Studio 是一个集成开发环境 (IDE),它使数据科学家和数据工程师可以更轻松地开发、可视化并调试以 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。
EMR Studio 提供完全托管式 Jupyter notebook 和工具(如 Spark UI 和 YARN 时间轴服务)来简化调试。数据科学家和分析师可以安装自定义内核和库,使用 GitHub 和 BitBucket 等代码存储库与同行协作,或者使用编排服务(如 Apache Airflow 或 Amazon Managed Workflows for Apache Airflow)将参数化笔记本作为计划工作流程的一部分来执行。
EMR Studio 内核和应用程序在 EMR 集群上运行,因此您可以使用适用于 Apache Spark 的性能优化型 Amazon EMR 运行时获得分布式数据处理的好处。管理员可以设置 EMR Studio,以便分析师可以在现有 EMR 集群上运行其应用程序,或者使用针对 EMR 的预定义 Amazon Cloud Formation 模板创建新集群。
功能与优点
简单易用
EMR Studio 使得与 EMR 集群上的应用程序进行交互变得简单。您可以使用 Amazon IAM Authentication 从亚马逊云科技控制台访问 EMR Studio,或者 Amazon Identity and Access Management (IAM) 从您的身份提供商 (IdP) 启用联合访问,而无需登录亚马逊云科技控制台。您可以使用笔记本以交互方式浏览、处理和可视化数据,构建和调度管道,以及调试应用程序,而无需登录 EMR 集群。
完全托管式 Jupyter notebook
借助 EMR Studio,您可以在几秒钟内启动笔记本,开始使用示例笔记本并进行数据探索。您可以通过内置的实时协作与同行协作,并通过 Git 存储库跟踪笔记本版本中的更改。此外,您还可以通过从笔记本加载自定义内核和 Python 库来自定义环境。
易于构建的应用程序
EMR Studio 使您可以轻松地从原型制作过渡到生产。您可以从代码存储库触发管道,使用编排工具(如 Apache Airflow 或 Amazon Managed Workflows for Apache Airflow)将笔记本作为管道运行,或者只需通过单击一下将笔记本附加到更大的集群。
简化调试
使用 EMR Studio,您可以调试任务和访问日志,而无需登录活动集群和已终止的集群。您可以直接从 EMR Studio 使用原生应用程序界面,例如 Spark UI 和 YARN 时间轴服务。此外,EMR Studio 还允许您使用诸如集群状态、创建时间和集群 ID 之类的筛选条件快速找到要调试的集群或任务。
实时协作笔记本
借助 EMR Studio,数据科学家、工程师和分析师可以跨团队进行实时协作。您可以邀请同事查看和编辑笔记本。这支持对 Jupyter notebook 进行实时共同创作、代码调试和代码审查。
Amazon EMR Studio - 实时协作
SQL Explorer
EMR Studio 附带了 SQL Explorer,这是 Workspace 中的一项功能,允许您直接从 EMR Studio 浏览数据目录并在 EMR 集群上运行 SQL 查询。在 SQL Explorer 中,您可以使用 Presto 连接到 EC2 集群上的 Amazon EMR,以查看和浏览数据目录。此外,SQL Explorer 还为您提供了一个编辑器,以运行 SQL 查询、查看表中的查询结果以及将它们下载为 csv 格式。
Amazon EMR Studio - SQL Explorer
多语言笔记本
EMR Studio 使您能够在单个 Jupyter notebook 中使用多种语言。您可以在同一 Jupyter notebook 中在 Python、Scala、SparkSQL 和 R 之间切换,并通过临时表在单元格之间共享数据。借助此功能,您可以使用最适合工作流程不同组件的语言编写代码。
使用案例
构建数据科学和工程应用程序
借助 EMR Studio,您可以在几秒钟内启动笔记本,开始使用示例笔记本并进行数据探索。您可以通过内置的实时协作与同行协作,并通过 Git 存储库跟踪笔记本版本的更改。此外,您还可以通过从笔记本加载自定义内核和 Python 库来自定义环境。
部署生产管道
在 EMR Studio 中,您可以使用代码存储库来触发管道。此外,您还可以对笔记本进行参数化和链接,以构建管道。您可以使用工作流程编排服务(例如 Apache Airflow 或 Amazon Managed Workflows for Apache Airflow)将笔记本集成到计划的工作流程中。EMR Studio 还允许您将笔记本重新连接到更大的集群以运行任务。
简化调试应用程序
在 EMR Studio 中,您可以从笔记本界面调试笔记本应用程序。此外,您还可以通过首先使用集群状态等筛选器缩小集群范围来调试管道,并通过尽可能少的点击次数来打开 Spark UI、Tez UI 和 Yarn Timeline Service 等原生调试 UI,以诊断活动和已终止集群上的任务。