查看集群状态和详细信息 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

查看集群状态和详细信息

创建集群后,您可以监控其状态和获取有关其执行和可能发生的错误的详细信息 (即使在集群终止后也是如此)。Amazon EMR 会将有关已终止集群的元数据保存两个月(之后将删除)以供您参考。虽然您无法从集群历史记录中删除集群,但借助Amazon Web Services Management Console,您可使用 Filter (筛选条件) 来聚焦您关注的集群,而借助 Amazon CLI,您可使用选项与 list-clusters 命令来聚焦您关注的集群。

无论集群是在运行中还是已终止,您都可以访问从开始记录集群的一周内存储在集群中的应用程序历史记录。此外,在集群终止后,持久性应用程序用户界面会在集群外存储应用程序历史记录达 30 天。请参阅查看应用程序历史记录

有关集群状态 [例如“Waiting (正在等待)”和“Running (正在运行)”] 的更多信息,请参阅了解集群的生命周期

使用 Amazon Web Services Management Console 查看集群详细信息

https://console.aws.amazon.com/emr 中的 Clusters(集群)列表列出了您账户和 Amazon 区域中的所有集群,包括已终止的集群。该列表显示了每个集群的以下信息:名称ID状态状态详细信息创建时间、集群已运行的已用时间,以及集群中所有 EC2 实例累计的标准实例小时数。该列表是监控您的集群状态的起点,它旨在使您能够深入了解每个集群的详细信息以进行分析和故障排除。

注意

我们重新设计了 Amazon EMR 控制台,以便其易于使用。请参阅 控制台中的新增功能,以了解有关新旧控制台体验差异的信息。

New console
使用新控制台查看集群信息
  1. 登录 Amazon Web Services Management Console 并打开 Amazon EMR 控制台,网址为 https://console.aws.amazon.com/emr

  2. 在左侧导航窗格中的 EMR on EC2 下,选择 Clusters(集群),然后选择要查看的集群。

  3. 使用 Summary(摘要)面板查看集群配置的基本信息,例如集群状态、Amazon EMR 在集群上安装的开源应用程序以及您用于创建集群的 Amazon EMR 版本。使用“摘要”下的各个选项卡查看信息,如下表所述。

Old console
使用旧控制台查看集群信息
  1. 导航到 Amazon EMR 新控制台,然后从侧面导航栏中选择切换到旧控制台。有关切换到旧控制台后预期情况的更多信息,请参阅 Using the old console

  2. 要查看集群信息摘要,请选择 Name(名称)下集群链接旁边的向下箭头。集群的行将展开以提供有关集群、硬件、步骤和引导操作的更多信息。利用此部分中的链接可深入了解具体信息。例如,单击 Steps (步骤) 下的链接可访问步骤日志文件,查看与步骤关联的 JAR,深入了解步骤的作业和任务以及访问日志文件。

  3. 要深入了解集群信息,请选择 Name(名称)下的集群链接以打开集群详细信息页面。旧控制台的集群详细信息页面上提供了以下信息:

选项卡(旧控制台) 描述(旧控制台)

属性

使用此选项卡可查看集群的操作系统、集群终止和安全配置、VPC 和子网信息,以及 Amazon S3 中的日志存储位置。

Bootstrap actions (引导操作)

使用此选项卡可查看集群在启动时运行的任何引导操作的状态。引导操作用于自定义软件安装和高级配置。有关更多信息,请参阅创建引导操作以安装其它软件

监控

使用此选项卡可查看集群操作的关键指标。您可以查看集群级别数据、节点级别数据以及有关 I/O 和数据存储的信息。

实例

使用此选项卡可查看有关您集群中节点的信息,包括 EC2 实例 ID、DNS 名称、EBS 卷和 IP 地址等。

步骤

使用此选项卡可查看您提交的步骤的状态和访问其日志文件。有关步骤的更多信息,请参阅 向集群提交工作

应用程序

使用此选项卡可以查看持久性的集群外 YARN 时间线服务器和 Tez UI 应用程序的详细信息。您还可以查看有关已安装应用程序、集群配置和实例组的信息。当集群正在运行时,集群上的应用程序用户界面可用。

事件

使用此选项卡可查看集群的事件日志。有关更多信息,请参阅通过 CloudWatch 监控 Amazon EMR 事件

标签

使用此选项卡可查看您应用于集群的任何标签。

使用 Amazon CLI 查看集群详细信息

以下示例说明如何使用 Amazon CLI 检索集群详细信息。有关可用命令的更多信息,请参阅 Amazon EMR 的 Amazon CLI 命令参考。您可以使用 describe-cluster 命令查看集群级别详细信息,包括状态、硬件和软件配置、VPC 设置、引导操作、实例组等。有关集群状态的更多信息,请参阅了解集群的生命周期。以下示例演示了使用 describe-cluster 命令的情景,并随后提供了 list-clusters 命令的示例。

例 查看集群状态

要使用 describe-cluster 命令,需要集群 ID。此示例演示使用它获取特定日期范围内创建的集群的列表,然后使用返回的集群 ID 之一列出有关各个集群状态的更多信息。

以下命令描述集群 j-1K48XXXXXXHCB(将替换为您的集群 ID)。

aws emr describe-cluster --cluster-id j-1K48XXXXXXHCB

您的命令的输出与以下内容类似:

{ "Cluster": { "Status": { "Timeline": { "ReadyDateTime": 1438281058.061, "CreationDateTime": 1438280702.498 }, "State": "WAITING", "StateChangeReason": { "Message": "Waiting for steps to run" } }, "Ec2InstanceAttributes": { "EmrManagedMasterSecurityGroup": "sg-cXXXXX0", "IamInstanceProfile": "EMR_EC2_DefaultRole", "Ec2KeyName": "myKey", "Ec2AvailabilityZone": "us-east-1c", "EmrManagedSlaveSecurityGroup": "sg-example" }, "Name": "Development Cluster", "ServiceRole": "EMR_DefaultRole", "Tags": [], "TerminationProtected": false, "ReleaseLabel": "emr-4.0.0", "NormalizedInstanceHours": 16, "InstanceGroups": [ { "RequestedInstanceCount": 1, "Status": { "Timeline": { "ReadyDateTime": 1438281058.101, "CreationDateTime": 1438280702.499 }, "State": "RUNNING", "StateChangeReason": { "Message": "" } }, "Name": "CORE", "InstanceGroupType": "CORE", "Id": "ig-2EEXAMPLEXXP", "Configurations": [], "InstanceType": "m5.xlarge", "Market": "ON_DEMAND", "RunningInstanceCount": 1 }, { "RequestedInstanceCount": 1, "Status": { "Timeline": { "ReadyDateTime": 1438281023.879, "CreationDateTime": 1438280702.499 }, "State": "RUNNING", "StateChangeReason": { "Message": "" } }, "Name": "MASTER", "InstanceGroupType": "MASTER", "Id": "ig-2A1234567XP", "Configurations": [], "InstanceType": "m5.xlarge", "Market": "ON_DEMAND", "RunningInstanceCount": 1 } ], "Applications": [ { "Version": "1.0.0", "Name": "Hive" }, { "Version": "2.6.0", "Name": "Hadoop" }, { "Version": "0.14.0", "Name": "Pig" }, { "Version": "1.4.1", "Name": "Spark" } ], "BootstrapActions": [], "MasterPublicDnsName": "ec2-X-X-X-X.compute-1.amazonaws.com", "AutoTerminate": false, "Id": "j-jobFlowID", "Configurations": [ { "Properties": { "hadoop.security.groups.cache.secs": "250" }, "Classification": "core-site" }, { "Properties": { "mapreduce.tasktracker.reduce.tasks.maximum": "5", "mapred.tasktracker.map.tasks.maximum": "2", "mapreduce.map.sort.spill.percent": "90" }, "Classification": "mapred-site" }, { "Properties": { "hive.join.emit.interval": "1000", "hive.merge.mapfiles": "true" }, "Classification": "hive-site" } ] } }
例 按创建日期列出集群

要检索特定日期范围内创建的集群,请使用 list-clusters 命令与 --created-after--created-before 参数。

以下命令将列出在 2019 年 10 月 9 日和 2019 年 10 月 12 日之间创建的所有集群。

aws emr list-clusters --created-after 2019-10-09T00:12:00 --created-before 2019-10-12T00:12:00
例 按状态列出集群

要按状态列出集群,使用 list-clusters 命令与 --cluster-states 参数。有效集群状态包括:STARTING、BOOTSTRAPPING、RUNNING、WAITING、TERMINATING、TERMINATED 和 TERMINATED_WITH_ERRORS。

aws emr list-clusters --cluster-states TERMINATED

您还可使用以下快捷方式参数来列出处于指定状态的所有集群:

  • --active 筛选处于 STARTING、BOOTSTRAPPING、RUNNING、WAITING 或 TERMINATING 状态的集群。

  • --terminated 筛选处于 TERMINATED 状态的集群。

  • --failed 参数筛选处于 TERMINATED_WITH_ERRORS 状态的集群。

以下命令返回相同的结果。

aws emr list-clusters --cluster-states TERMINATED
aws emr list-clusters --terminated

有关集群状态的更多信息,请参阅了解集群的生命周期