Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

步骤 2:启动示例 Amazon EMR 集群

在此步骤中,通过使用 Amazon EMR 控制台中的 Quick Options (快速选项) 并将大多数选项保留为其默认值来启动示例集群。要了解有关这些选项的更多信息,请参阅此过程之后的“Quick Options (快速选项)”摘要。您还可以选择 Go to advanced options (转到高级选项) 来探索可用于集群的其他配置选项。在为本教程创建集群之前,请确保您满足步骤 1:设置示例集群的先决条件中的要求。

启动示例集群

启动示例 Amazon EMR 集群

  1. 登录 AWS 管理控制台 并通过以下网址打开 Amazon EMR 控制台:https://console.amazonaws.cn/elasticmapreduce/

  2. 选择 Create cluster

  3. Create Cluster - Quick Options (创建集群 - 快速选项) 页面上,接受默认值,但以下字段除外:

    • 输入 Cluster name (集群名称) 以帮助您识别集群,例如,My First EMR Cluster (我的第一个 EMR 集群)

    • Security and access (安全与访问) 下,选择您在创建 Amazon EC2 密钥对中创建的 EC2 key pair (EC2 密钥对)

  4. 选择 Create cluster

将显示包含集群 Summary (摘要) 的集群状态页面。您可以使用此页面监控集群创建进度和查看有关集群状态的详细信息。当集群创建任务完成时,状态页面上的项目将更新。您可能需要选择右侧的刷新图标或刷新您的浏览器才能接收更新。

Network and hardware (网络和硬件) 下,查找 Master (主)Core (核心) 实例状态。集群创建过程中,状态将经历 Provisioning (正在预置)Bootstrapping (正在引导启动)Waiting (正在等待) 三个阶段。有关更多信息,请参阅理解集群的生命周期

一旦您看到 Security groups for Master (主节点的安全组)Security Groups for Core & Task (核心与任务节点的安全组) 对应的链接,即可转至下一步,但您可能需要一直等到集群成功启动且处于 Waiting (正在等待) 状态。

有关读取集群摘要的更多信息,请参阅查看集群状态和详细信息

“Quick Options (快速选项)”摘要

下表描述使用 Amazon EMR 控制台中的 Quick cluster configuration (快速集群配置) 页面启动集群时的字段和默认值。

控制台字段 默认值 说明
集群名称 My cluster (我的集群)

集群名称是可选的集群描述性名称,不必唯一。

日志系统 启用

启用日志记录后,Amazon EMR 会将详细的日志数据写入您指定的 Amazon S3 文件夹。仅当创建集群时才能启用日志记录,且此设置之后无法更改。指定默认 Amazon S3 存储桶。(可选)您可以指定自己的存储桶。有关更多信息,请参阅查看存档到 Amazon S3的日志文件

S3 folder (S3 文件夹) s3://aws-logs-account_number-region/elasticmapreduce/

此选项指定至文件夹(位于您希望 Amazon EMR 将日志数据写入其中的 Amazon S3 存储桶)的路径。如果此存储桶中没有指定路径的默认文件夹,则系统将为您创建。您可以通过键入或浏览到 Amazon S3 文件夹来指定其他文件夹。

Launch mode (启动模式) 集群

此选项指定是启动长时间运行的集群还是在运行您指定的任何步骤之后终止的集群。

使用 Cluster (集群) 选项,集群将持续运行至您将其终止,这称为长时间运行的集群。如果您选择 Step execution (步骤执行),则 Amazon EMR 将提示您添加和配置步骤。您可以使用步骤向集群提交工作。在您指定的步骤执行完成后,集群将自动终止。有关更多信息,请参阅将集群配置为自动终止或继续

Release emr-5.20.0

此选项指定要在创建集群时使用的 Amazon EMR 版本。Amazon EMR 版本确定 Amazon EMR 安装的开源应用程序(如 Hadoop 和 Hive)的版本。默认情况下,选择最新版本的标签。如果您需要与您的解决方案兼容的开源应用程序的其他版本,请选择早期 Amazon EMR 版本。使用早期 Amazon EMR 版本时,有些 Amazon EMR 功能和应用程序可能不可用,因此建议您尽可能使用最新版本。有关每个 Amazon EMR 版本的更多信息,请参阅 Amazon EMR 版本指南

应用程序 Core Hadoop (核心 Hadoop)

此选项确定大数据生态系统中要安装在您的集群上的开源应用程序。使用快速入门时,最常见的应用程序组合可用。要选择您自己的应用程序组合,包括快速入门中未列出的其他应用程序,请选择 Go to advanced options (转至高级选项)。有关每个 Amazon EMR 版本可用的应用程序和版本的信息,请参阅 Amazon EMR 版本指南

此外,如果应用程序不可用于 Amazon EMR 进行安装,或者您需要在集群实例上安装自定义应用程序,可以使用引导操作。有关更多信息,请参阅创建引导操作以安装其他软件。如果您选择 Step execution (步骤执行),则 Amazon EMR 将根据您的步骤的需求选择要安装的应用程序。

实例类型 m4.large

此选项确定 Amazon EMR 为在集群中运行的实例初始化的 Amazon EC2 实例类型。默认实例选择因区域而异,某些实例类型在某些区域可能不可用。有关更多信息,请参阅配置集群硬件和联网

实例的数量 3

此选项确定要初始化的 Amazon EC2 实例数。每个实例对应 Amazon EMR 集群中的一个节点。您必须具有至少一个节点(此节点为主节点)。有关选择实例类型和实例数量的指导,请参阅集群配置指南和最佳实践

EC2 密钥对 Choose an option (选择选项)

此选项指定通过安全外壳 (SSH) 连接来连接到集群中的节点时要使用的 Amazon EC2 密钥对。我们强烈建议您创建并指定一个 Amazon EC2 密钥对。如果不选择密钥对,则无法连接到集群来提交步骤或与应用程序交互。有关更多信息,请参阅连接到集群。要连接,还需要在安全组中创建入站规则以允许 SSH 连接。

权限 默认值

使用此选项指定集群使用的 AWS Identity and Access Management 角色。这些角色确定 Amazon EMR 以及集群实例上运行的应用程序与其他 AWS 服务交互要具有的权限。您可以选择 Custom (自定义) 以指定您自己的角色。我们建议从使用默认角色开始。有关更多信息,请参阅为 IAM 角色配置对 AWS 服务的 Amazon EMR 权限