使用 Quick Options (快速选项) 启动集群 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

使用 Quick Options (快速选项) 启动集群

使用 Amazon EMR 控制台中的 Create Cluster - Quick Options (创建集群 – 快速选项) 页面,快速创建用于简单任务或用于评估或测试的集群。Quick Options (快速选项) 使用集群配置选项(如软件、联网和安全等)的默认值。例如,当您使用 Quick Options (快速选项) 启动集群时,请不要为您的集群选择 Virtual Private Cloud(VPC)和子网。Amazon EMR 会在您所选区域的默认 Amazon Virtual Private Cloud(Amazon VPC)的公有子网中设置一个集群。

使用 Quick Options (快速选项) 启动集群

  1. 通过以下链接登录Amazon Web Services Management Console并打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Clusters (集群),然后选择 Create cluster (创建集群),打开 Quick Options (快速选项) 页面。

  3. Create Cluster - Quick Options (创建集群 – 快速选项) 页面上,输入或选择所提供字段的值。有关 Quick Options (快速选项) 字段的更多信息,请参阅“Quick Options (快速选项)”摘要

  4. 选择 Create cluster (创建集群),启动集群并打开集群状态页面。

  5. 在集群状态页面上,找到集群名称旁边的 Status (状态)。在集群创建过程中,状态应从 Starting (正在启动) 变为 Running (正在运行) 再变为 Waiting (正在等待)。您可能需要选择右侧的刷新图标或刷新您的浏览器才能接收更新。

当状态变更为 Waiting (正在等待) 后,表明您的集群已启动、正在运行,并准备接受步骤和 SSH 连接。

“Quick Options (快速选项)”摘要

下表列出了在 Amazon EMR 控制台中使用 Create Cluster - Quick Options (创建集群 – 快速选项) 页面启动集群时的字段和默认值。

控制台字段 默认值 描述
集群名称: My cluster (我的集群)

集群名称是可选的集群描述性名称,不必唯一。

日志记录 Selected

启用日志记录后,Amazon EMR 会将详细的日志数据写入您指定的 Amazon S3 文件夹。您只能在创建集群时启用日志记录功能。之后,您将无法更改这些设置。Quick Options (快速选项) 会选择默认的 Amazon S3 存储桶。(可选)您可以指定自己的存储桶。有关更多信息,请参阅查看归档到 Amazon S3 的日志文件

S3 folder (S3 文件夹 elasticmapreduce/

此选项指定您希望 Amazon EMR 将日志数据写入其中的 Amazon S3 存储桶中的路径。如果此存储桶中没有指定路径的默认文件夹,Amazon EMR 将为您创建一个。您可以通过输入文件夹名称或浏览到 Amazon S3 文件夹,来指定另外一个文件夹。

Launch mode (启动模式 Cluster

此选项指定是启动长时间运行的集群,还是在运行您在创建时指定的任何步骤之后终止的集群。

使用 Cluster (集群) 选项,集群将持续运行至您将其终止,这称为长时间运行的集群。如果您选择 Step execution (步骤执行),则 Amazon EMR 将提示您添加和配置步骤。您可以使用步骤向集群提交工作。在您指定的步骤运行完成后,集群将自动终止。有关更多信息,请参阅将集群配置为在步骤执行后继续或终止

版本 emr-5.33.0

此选项指定要在创建集群时使用的 Amazon EMR 发行版。Amazon EMR 发行版确定 Amazon EMR 安装的开源应用程序(如 Hadoop 和 Hive)的版本。默认情况下,选择最新版本的标签。如果您需要与您的解决方案兼容的开源应用程序的其他版本,请选择早期 Amazon EMR 版本。使用早期 Amazon EMR 发行版时,部分 Amazon EMR 功能和应用程序可能不可用。我们建议您尽可能使用最新发行版。有关各 Amazon EMR 发行版的更多信息,请参阅 Amazon EMR 版本指南

应用程序 Core Hadoop (核心 Hadoop)

此选项确定大数据生态系统中要安装在您的集群上的开源应用程序。Quick Options (快速选项) 可让您从最常见的应用程序组合中进行选择。要选择您自己的应用程序组合(包括未列出的其他应用程序),请选择 Go to advanced options (转至高级选项)。有关各 Amazon EMR 发行版可用的应用程序和版本的信息,请参阅 Amazon EMR 版本指南

此外,如果应用程序不可用于 Amazon EMR 进行安装,或者您需要在所有集群实例上安装自定义应用程序,可以使用引导操作。有关更多信息,请参阅创建引导操作以安装其他软件。如果您选择 Step execution (步骤执行),Amazon EMR 会根据您的步骤需求选择要安装的应用程序。

使用表元数据的Amazon Glue 数据目录 已禁用 启用后,请指定 AmazonGlue 数据目录作为外部 Hive 的元存储。有关更多信息,请参阅使用 Amazon Glue 数据目录作为 Hive 的元存储
实例类型 m5.xlarge

此选项确定 Amazon EC2 为在集群中运行的实例初始化的 Amazon EMR 实例类型。默认实例选择因区域而异,某些实例类型在某些区域可能不可用。有关更多信息,请参阅配置集群硬件和联网

实例的数量 3

此选项确定要初始化的 Amazon EC2 实例数。每个实例对应 Amazon EMR 集群中的一个节点。您必须具有至少一个节点(此节点为主节点)。有关选择实例类型和实例数量的指导,请参阅集群配置指南和最佳实践

集群扩展 取消选中 选择此选项后,集群扩展将启用 EMR 托管扩展。托管扩展可根据工作负载自动增减核心节点和任务节点中的实例数。有关更多信息,请参阅在 Amazon EMR 中使用 EMR 托管扩展
EC2 密钥对 Choose an option (选择选项)

此选项指定通过 Secure Shell(SSH)连接来连接集群中的节点时要使用的 Amazon EC2 密钥对。我们强烈建议您创建并指定一个 Amazon EC2 密钥对。如果不选择密钥对,则无法连接到集群来提交步骤或与应用程序交互。有关更多信息,请参阅连接到集群。要连接,还需要在安全组中创建入站规则以允许 SSH 连接。

权限 默认值

使用此选项指定集群使用的 Amazon Identity and Access Management 角色。这些角色确定 Amazon EMR 以及集群实例上运行的应用程序与其他Amazon服务交互需具备权限。您可以选择 Custom (自定义) 以指定您自己的角色。我们建议从使用默认角色开始。有关更多信息,请参阅为 Amazon EMR 配置 IAM 服务角色对Amazon服务和资源的权限

EMR 角色 EMR_DefaultRole 允许 Amazon EMR 代表您调用其他Amazon服务(如 Amazon EC2)的服务角色。有关更多信息,请参阅Amazon EMR 的服务角色(EMR 角色)
EC2 实例配置文件 EMR_EC2_DefaultRole 提供可从由 Amazon EMR 启动的 Amazon EC2 服务访问其他Amazon服务(例如 Amazon S3 和 DynamoDB)的权限。有关更多信息,请参阅集群 EC2 实例(EC2 实例配置文件)的服务角色