Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

步骤 2:启动示例 Amazon EMR 集群

在本步骤中,您将通过 Amazon EMR 控制台启动示例集群。在执行本步骤之前,请确保您满足 步骤 1:设置示例集群的先决条件 中的要求。

使用快速集群配置概述

下表列出了使用 Amazon EMR 控制台中的 Quick cluster configuration 页面启动集群时的字段和默认值。

控制台字段 默认值 描述
集群名称 我的集群

集群名称是可选的集群描述性名称,不必唯一。

日志系统 启用

此选项指定启用还是禁用日志记录。启用日志记录时,Amazon EMR 会将详细的日志数据写入为您选择的 S3 存储桶或您自己指定的存储桶中的文件夹。日志记录是不可变属性,只能在创建集群时启用。

S3 文件夹 s3://aws-logs-account_number-region/elasticmapreduce/

此选项指定 S3 存储桶中供 Amazon EMR 写入日志数据的文件夹的路径。下面的示例显示了 us-east-1 区域中 AWS 账户 ID 为 111122223333 的 S3 存储桶的路径:s3://aws-logs-111122223333-us-east-1/elasticmapreduce/。

如果存储桶中不存在指定路径的文件夹,系统会替您创建。您可以通过键入或浏览到其他位置来指定其他文件夹。

启动模式 集群

此选项指定是启动持续性集群还是暂时性集群,如下所述:

  • 对于 Cluster 选项,Amazon EMR 启动一个包含您在 Software configuration 中选择的应用程序的集群。您可以在集群启动后向其添加步骤,集群将持续运行,直到您终止它。

  • 对于 Step execution 选项,您将在集群启动后添加要运行的步骤。您添加的步骤确定了包含在集群中的应用程序。集群启动后,如果步骤完成,集群会自动终止。

Release EMR 发行版标签

此选项指定要在集群上安装的软件和 Amazon EMR 平台组件,如 EMRFS。Amazon EMR 使用此版本初始化运行您的集群的 Amazon EC2 实例。这些版本是 Amazon EMR 特有的,并且只能在运行 Amazon EMR 集群的上下文中使用。默认选择最新的发行版标签。

应用程序

All applications (适用于 Cluster 启动模式)

Core Hadoop (如果您选择 Step execution 启动模式)

此选项确定要在集群上安装的应用程序。选择 Cluster 启动模式时,您可以选择要安装的应用程序。选择 Step execution 启动模式时,应用程序列表由您添加的步骤确定。

实例类型 m4.large

此选项确定 Amazon EMR 为在集群中运行的实例初始化的 Amazon EC2 实例类型。

实例的数量 3

此选项确定要初始化的 Amazon EC2 实例数。每个实例对应 Amazon EMR 集群中的一个节点。您必须拥有至少一个节点。

EC2 密钥对 Select an option

此选项指定使用安全外壳 (SSH) 连接集群中的节点时使用的 Amazon EC2 密钥对。如果不选择密钥对,则您无法连接集群。

权限 默认值

此选项配置 Amazon EMR 集群的权限。这些权限通过应用到以下 IAM 角色的策略授予:

  • EMR role — 授予 Amazon EMR 代表您访问其他 AWS 服务的权限。

  • EC2 instance profile — 授予集群的 Amazon EC2 实例代表您访问其他 AWS 服务的权限。

对于 Default 权限,IAM 角色使用以下 AWS 托管策略:适用于 Amazon EMR 服务的 AmazonElasticMapReduceRole 和适用于实例配置文件的 AmazonElasticMapReduceforEC2Role。您可以选择 View policy for EMR roleView policy for EC2 instance profile 来查看这些策略。

对于 Custom 权限,您必须选择现有角色。附加到这些角色的策略确定了 Amazon EMR 及您的 Amazon EC2 实例配置文件的权限。

启动示例集群

请执行以下步骤以启动示例集群。除非本过程另行指定,否则请使用上表中所述的默认值。

启动 Amazon EMR 集群

Sign in to the AWS Management Console and open the Amazon EMR console at https://console.amazonaws.cn/elasticmapreduce/.

  1. 选择 Create cluster

  2. Quick cluster configuration 页面上,接受默认值,但以下字段除外:

  3. 选择 Create cluster

  4. 继续执行下一步。