Amazon EMR 是一项托管服务,可以让您快速、轻松且经济高效地运行 Apache Hadoop 和 Spark 以便处理大量数据。Amazon EMR 还支持功能强大且经验证的 Hadoop 工具,例如 Presto、Hive、Pig、HBase 等。在该项目中,您将部署功能完善的 Hadoop 集群,以便为在数分钟内分析日志数据做好准备。您将首先启动 Amazon EMR 集群,然后使用 HiveQL 脚本来处理存储在 Amazon S3 存储桶中的示例日志数据。HiveQL 是一种类似 SQL 的脚本语言,可以用于数据仓库和分析。然后,您可以使用类似的设置分析自己的日志文件。

Amazon-Web-Services-project_analyze-big-data_diagram

要实现的目标

使用 Amazon EMR 启动功能完善的 Hadoop 集群

Amazon S3 中存储的示例日志数据定义 schema 和创建表

使用 HiveQL 脚本分析数据并将结果写入 Amazon S3。

在计算机上下载并查看结果

开始之前的准备事项

亚马逊云科技账户:您需要使用亚马逊云科技账户开始预置资源,以便托管您的网站。 注册亚马逊云科技

IT 经验:要完成此项目,建议拥有使用 Hadoop 的经验(但并非必需)。

亚马逊云科技使用经验:要完成此项目,建议对 Amazon S3 和 Amazon EC2 密钥对有基本的了解(但并非必需)。


了解 Amazon EMR 的功能、优势和主要使用案例。

需要更多资源才能开始使用亚马逊云科技? 请访问“入门资源中心”,了解更多信息。