使用监控亚马逊EMR事件 CloudWatch - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用监控亚马逊EMR事件 CloudWatch

Amazon 会EMR跟踪事件,并在亚马逊EMR控制台中将有关事件的信息保存长达七天。当集群、实例组、实例队列、自动扩展策略或步骤的状态发生变化时,Amazon 会EMR记录事件。事件捕获事件发生的日期和时间、有关受影响元素的详细信息以及其他关键数据点。

下表列出了 Amazon EMR 事件,以及该事件表示的状态或状态变化、事件的严重性、事件类型、事件代码和事件消息。Amazon 将事件EMR表示为JSON对象,并自动将其发送到事件流。当您使用 CloudWatch 事件设置事件处理规则时,该JSON对象很重要,因为规则会寻求匹配JSON对象中的模式。有关更多信息,请参阅 Amazon Events 用户指南中的EMR事件和事件模式以及亚马逊 CloudWatch 事件

注意

为确保向您提供最相关的信息,我们会不断完善错误消息。因此,建议您不要通过解析消息中的文本来启动工作流中的后续操作。

集群启动事件

状态或状态变更 严重性 事件类型 事件代码 消息
CREATING WARN EMR实例队列配置 EC2配置-实例容量不足 我们无法ClusterId (ClusterName)为实例队列创建您的 Amazon EMR 集群 InstanceFleetID Amazon EC2 实例类型的[Instancetype1, Instancetype2]竞价容量不足,可用区域[Instancetype3, Instancetype4]中的实例类型的按需容量不足[AvailabilityZone1, AvaliabilityZone2]。有关如何应对此事件的更多信息,请查看此处的文档
CREATING WARN EMR实例组配置 EC2配置-实例容量不足 我们无法ClusterId (ClusterName)为实例组创建您的 Amazon EMR 集群 InstanceGroupID Amazon EC2 实例类型的竞价容量不足[Instancetype1, Instancetype2],可用区域[Instancetype3, Instancetype4]中的实例类型的按需容量不足[AvailabilityZone1, AvaliabilityZone2]。有关如何应对此事件的更多信息,请查看此处的文档
CREATING WARN EMR实例队列配置 EC2配置-子网中的可用地址不足 我们无法创建您为实例队列请求ClusterId (ClusterName)的 Amazon EMR 集群,InstanceFleetID因为指定的子网中[Subnet1, Subnet2]没有足够的免费私有 IP 地址来满足您的请求。使用 DescribeSubnets 操作查看您的子网中有多少 IP 地址可用(未使用)。有关如何响应此事件的信息,请参阅 Amazon 的错误代码 EC2 API
CREATING WARN EMR实例组配置 EC2配置-子网中的可用地址不足 我们无法创建您为实例组请求ClusterId (ClusterName)的 Amazon EMR 集群,InstanceGroupID因为指定的子网中[Subnet1, Subnet2]没有足够的免费私有 IP 地址来满足您的请求。使用 DescribeSubnets 操作查看您的子网中有多少 IP 地址可用(未使用)。有关如何响应此事件的信息,请参阅 Amazon 的错误代码 EC2 API
CREATING WARN

EMR实例队列配置

EC2配置 — v 已超出CPU限制

Amazon EMR 集群InstanceFleetIDClusterId (ClusterName)中的配置会延迟,因为您已达到分配给中正在运行的实例的 vCPUs (虚拟处理单元)数量的限制account (accountId)。有关更多信息,请参阅 Amazon 的错误代码 EC2 API
CREATING WARN

EMR实例组配置

EC2配置 — v 已超出CPU限制

由于您的账户InstanceGroupID中已达到分配给ClusterId正在运行的实例的 vCPUs (虚拟处理单元)数量上限,Amazon EMR 集群中实例组的配置会延迟(accountId)。有关更多信息,请参阅 Amazon 的错误代码 EC2 API
CREATING WARN

EMR实例队列配置

EC2预配置-已超出 Spot 实例数量限制

Amazon EMR 集群InstanceFleetID中实例队列的配置ClusterID (ClusterName)被延迟,因为您已达到可在中启动的竞价型实例数量的限制account (accountId)。有关更多信息,请参阅 Amazon 的错误代码EC2API
CREATING WARN

EMR实例组配置

EC2预配置-已超出 Spot 实例数量限制

Amazon EMR 集群InstanceGroupID中实例组的配置ClusterID (ClusterName)被延迟,因为您已达到可在中启动的竞价型实例数量的限制account (accountId)。有关更多信息,请参阅 Amazon 的错误代码EC2API
CREATING WARN

EMR实例队列配置

EC2预配置-已超出实例限制

Amazon EMR 集群InstanceFleetIDClusterId (ClusterName)中实例队列的配置会延迟,因为您已达到可在集群中同时运行的实例数量上限。account (accountID)有关亚马逊EC2服务限制的更多信息,请参阅亚马逊的错误代码EC2API
CREATING WARN

EMR实例组配置

EC2预配置-已超出实例限制

Amazon EMR 集群InstanceGroupIDClusterId (ClusterName)中实例组的配置会延迟,因为您已达到可在集群中同时运行的实例数量上限。account (accountID)有关亚马逊EC2服务限制的更多信息,请参阅亚马逊的错误代码EC2API
CREATING WARN

EMR实例组配置

none

Amazon EMR 集群创建ClusterId (ClusterName)Time并已准备就绪。

–或者–

Amazon EMR 集群ClusterId (ClusterName)已完成所有待处理步骤的运行Time

注意

处于 WAITING 状态的集群可能仍是正在处理的作业。

STARTING INFO

EMR集群状态更改

none

已在请求ClusterId (ClusterName)了 Amazon EMR 集群,Time并且正在创建中。

STARTING INFO

EMR集群状态更改

none

注意

仅适用于具有实例队列配置且在 Amazon EC2 内选择了多个可用区的集群。

ClusterId (ClusterName)正在区域 (AvailabilityZoneID) 中创建 Amazon EMR 集群,该区域是从指定的可用区选项中选择的。

STARTING INFO

EMR集群状态更改

none

Amazon EMR 集群ClusterId (ClusterName)开始在上运行步骤Time

WAITING INFO

EMR集群状态更改

none

Amazon EMR 集群创建ClusterId (ClusterName)Time并已准备就绪。

–或者–

Amazon EMR 集群ClusterId (ClusterName)已完成所有待处理步骤的运行Time

注意

处于 WAITING 状态的集群可能仍是正在处理的作业。

注意

当您的EMR集群在创建集群或调整集群大小操作期间遇到来自 Amazon EC2 的实例队列或实例组容量不足错误时,会EC2 provisioning - Insufficient Instance Capacity定期发出带有事件代码的事件。有关如何响应这些事件的更多信息,请参阅 响应 Amazon EMR 集群实例容量不足事件

集群终止事件

状态或状态变更 严重性 事件类型 事件代码 消息
TERMINATED

严重性视状态变更原因而定,如下所述:

  • CRITICAL 如果集群因以下任一状态变更原因而终止:INTERNAL_ERRORVALIDATION_ERRORINSTANCE_FAILUREBOOTSTRAP_FAILURESTEP_FAILURE

  • INFO 如果集群因以下任一状态变更原因而终止:USER_REQUESTALL_STEPS_COMPLETED

EMR集群状态更改

none

Amazon EMR 集群ClusterId (ClusterName)已终止,原因是StateChangeReason:CodeTime

TERMINATED_WITH_ERRORS CRITICAL

EMR集群状态更改

none

Amaz ClusterId (ClusterName) on EMR 集群因错误Time而终止,原因为StateChangeReason:Code

TERMINATED_WITH_ERRORS CRITICAL

EMR集群状态更改

none

Amaz ClusterId (ClusterName) on EMR 集群因错误Time而终止,原因为StateChangeReason:Code

实例集状态更改事件

注意

实例队列配置仅在亚马逊 4.8.0 及更高EMR版本中可用,不包括 5.0.0 和 5.0.3。

状态或状态变更 严重性 事件类型 事件代码 消息

PROVISIONINGWAITING

INFO none

Amazon EMR 集群InstanceFleetID中实例队列的配置ClusterId (ClusterName)已完成。预置已于 Time 开始,并且已花费 Num 分钟。实例集现在的按需容量为 Num,竞价型容量为 Num。目标按需容量为 Num,目标竞价型容量为 Num

WAITINGRESIZING

INFO none

Amazon EMR 集群InstanceFleetID中实例队列的大小ClusterId (ClusterName)始于Time。实例集的大小从按需容量 Num 调整到目标的 Num,而竞价型容量则从 Num 调整到目标的 Num

RESIZINGWAITING

INFO none

Amazon EMR 集群InstanceFleetID中实例队列的大小调整操作ClusterId (ClusterName)已完成。大小调整已于 Time 开始,并且已花费 Num 分钟。实例集现在的按需容量为 Num,竞价型容量为 Num。目标按需容量为 Num,目标竞价型容量为 Num

RESIZINGWAITING

INFO none

Amazon EMR 集群InstanceFleetID中实例队列的大小调整操作ClusterId (ClusterName)已达到超时时间并已停止。大小调整已于 Time 开始,并且在 Num 分钟后停止。实例集现在的按需容量为 Num,竞价型容量为 Num。目标按需容量为 Num,目标竞价型容量为 Num

SUSPENDED ERROR none

由于以下原因InstanceFleetID,Amazon EMR 集群中的实例队列ClusterId (ClusterName)被捕:ReasonDesc. Time

RESIZING WARNING none

由于以下原因,Amazon EMR 集群InstanceFleetID中实例队列的大小调整操作停滞ClusterId (ClusterName)不前:ReasonDesc.

WAITINGRunning

INFO none

当 Amazon 在可用区域InstanceFleetIDAvailabilityZone中EMR添加竞价容量时,ClusterId (ClusterName)无法完成调整亚马逊EMR集群中实例队列的大小操作。已取消您预置额外 Spot 容量的请求。有关推荐的操作,请查看 Amazon EMR 集群的可用区域灵活性 并重试。

WAITINGRunning

INFO none

Amazon EMR 集群InstanceFleetIDClusterId (ClusterName)中实例队列的大小调整操作是由Entity在启动的。Time

实例集大小调整事件

事件类型 严重性 事件代码 消息

EMR调整实例队列大小

ERROR

竞价型预置超时

InstanceFleetID在可用区获取竞价容量时,无法ClusterId (ClusterName)完成 Amazon EMR 集群中实例队列的大小调整操作AvailabilityZone。我们现在已经取消了您的请求并停止尝试预置任何额外的竞价型容量,并且实例集已经预置了 num 的竞价型容量。目标竞价型容量为 num。有关更多信息和建议的操作,请查看此处的文档页面,然后重试。

EMR调整实例队列大小

ERROR

按需预置超时

InstanceFleetID在可用区获取按需容量时,无法ClusterId (ClusterName)完成 Amazon EMR 集群中实例队列的大小调整操作AvailabilityZone。我们现在已经取消了您的请求并停止尝试预置任何额外的按需容量,并且实例集已经预置了 num 的按需容量。目标按需容量为 num。有关更多信息和建议的操作,请查看此处的文档页面,然后重试。

EMR调整实例队列大小

WARNING EC2配置-实例容量不足

我们无法完成EMR集群InstanceFleetID中实例队列的大小调整操作,因ClusterId (ClusterName)为 Amazon EC2 的实例类型竞价容量不足[Instancetype1, Instancetype2],可用区[Instancetype3, Instancetype4]中实例类型的按需容量不足[AvailabilityZone1]。实例集预置的按需容量为 num,目标按需容量为 num。预置的竞价型容量为 num,目标竞价型容量为 num。有关如何应对此事件的更多信息,请查看此处的文档

EMR调整实例队列大小

WARNING

竞价型预置超时 – 继续调整大小

我们仍在为实例队列调整大小操作预置 Spot 容量,该操作在可用区time的 Amazon EMR 集群InstanceFleetIDClusterId (ClusterName)中的实例队列 ID 启动AvailabilityZone[Instancetype1, Instancetype2]对于之前启动的调整大小操作,超时时间已过期,因此 Amazon 在time将请求numnum实例添加到您的实例队列后EMR停止预配置 Spot 容量。有关更多信息,请查看此处的文档页面。

EMR调整实例队列大小

WARNING

按需预置超时 – 继续调整大小

我们仍在为实例队列调整操作预置按需容量,该操作在可用区time的 Amazon EMR 集群InstanceFleetIDClusterId (ClusterName)中的实例队列 ID 启动AvailabilityZone[Instancetype1, Instancetype2]对于之前启动的调整大小操作,超时时间已过期,因此 Amazon 在time将请求numnum实例添加到您的实例队列后EMR停止配置按需容量。有关更多信息,请查看此处的文档页面。

EMR调整实例队列大小

WARNING

EC2配置-子网中的可用地址不足

我们无法完成 Amazon EMR 集群InstanceFleetID中实例队列的大小调整操作,ClusterId (ClusterName)因为指定的子网 [Subnet1,Subnet2] 不包含足够的免费私有 IP 地址来满足您的请求。使用 DescribeSubnets 操作查看您的子网中有多少 IP 地址可用(未使用)。有关如何响应此事件的信息,请参阅 Amazon 的错误代码EC2API

EMR调整实例队列大小

WARNING

EC2配置-v 已超出CPU限制

Amazon EMR 集群InstanceFleetIDClusterName中实例队列的大小会延迟,因为您已达到分配给中正在运行的实例的 vCPUs (虚拟处理单元)数量的限制account (accountId)。有关更多信息,请参阅 Amazon 的错误代码EC2API

EMR调整实例队列大小

WARNING

EC2预配置-已超出 Spot 实例数量限制

Amazon EMR 集群InstanceFleetID中实例队列的配置ClusterID (ClusterName)被延迟,因为您已达到可在中启动的竞价型实例数量的限制account (accountId)。有关更多信息,请参阅 Amazon 的错误代码EC2API

EMR调整实例队列大小

WARNING

EC2置备-已超出实例限制

Amazon EMR 集群InstanceFleetIDClusterID (ClusterName)中实例队列的配置会延迟,因为您已达到可在中运行的按需实例数量的限制account (accountId)。有关 Amazon 错误代码的更多信息EC2API
注意

超时到期后,当 Amazon EMR 停止为队列配置 Spot 或按需容量时,就会发出配置超时事件。有关如何响应这些事件的更多信息,请参阅 响应 Amazon EMR 集群实例队列调整大小超时事件

实例组事件

事件类型 严重性 事件代码 消息

RESIZINGRunning

INFO none

Amazon EMR 集群InstanceGroupID中实例组的大小调整操作ClusterId (ClusterName)已完成。它当前拥有 Num 个实例。大小调整操作已于 Time 开始,花费 Num 分钟时间完成。

RUNNINGRESIZING

INFO none

Amazon EMR 集群InstanceGroupID中实例组的大小调整ClusterId (ClusterName)始于Time。它的实例数从 Num 个调整为 Num 个。

SUSPENDED ERROR none

Amazon EMR 集群InstanceGroupID中的实例组Time因以下原因ClusterId (ClusterName)被捕:ReasonDesc.

RESIZING WARNING none

由于以下原因,Amazon EMR 集群InstanceGroupID中实例组的大小调整操作停滞ClusterId (ClusterName)不前:ReasonDesc

EMR调整实例组大小

WARNING EC2配置-实例容量不足

由于 Amazon EC2 的可用区域InstanceGroupID中实例类型的Spot/On Demand[Instancetype]容量不足,ClusterId (ClusterName)因此我们无法完成从EMR集群实例组开始的调整大小操作[AvailabilityZone1]time到目前为止,该实例组的运行实例计数为 num,请求的实例计数为 num。有关如何应对此事件的更多信息,请查看此处的文档

EMR调整实例组大小

WARNING

EC2配置-子网中的可用地址不足

我们无法完成 Amazon EMR 集群InstanceGroupID中实例组的大小调整操作,ClusterId (ClusterName)因为指定的子网 [Subnet1,Subnet2] 不包含足够的免费私有 IP 地址来满足您的请求。使用 DescribeSubnets 操作查看您的子网中有多少 IP 地址可用(未使用)。有关如何响应此事件的信息,请参阅 Amazon 的错误代码EC2API

EMR调整实例组大小

WARNING

EC2配置-v 已超出CPU限制

Amazon EMR 集群InstanceGroupIDClusterName中实例组的大小会延迟,因为您已达到分配给中正在运行的实例的 vCPUs (虚拟处理单元)数量的限制account (accountId)。有关更多信息,请参阅 Amazon 的错误代码EC2API

EMR调整实例组大小

WARNING

EC2预配置-已超出 Spot 实例数量限制

Amazon EMR 集群InstanceGroupID中实例组的配置ClusterID (ClusterName)被延迟,因为您已达到可在中启动的竞价型实例数量的限制account (accountId)。有关更多信息,请参阅 Amazon 的错误代码EC2API

EMR调整实例组大小

WARNING

EC2置备-已超出实例限制

Amazon EMR 集群InstanceGroupIDClusterID (ClusterName)中实例组的配置会延迟,因为您已达到可在中运行的按需实例数量的限制account (accountId)。有关 Amazon 错误代码的更多信息EC2API

RUNNINGRESIZING

INFO none

InstanceGroupID在 Amazon EMR 集群中启动ClusterId (ClusterName)了实例组的大Entity小调整Time

注意

在 Amazon 5.21.0 及更高EMR版本中,您可以覆盖集群配置,并为正在运行的集群中的每个实例组指定其他配置分类。您可以使用 Amazon EMR 控制台、 Amazon Command Line Interface (Amazon CLI) 或 Amazon SDK。有关更多信息,请参阅为运行的集群中的实例组提供配置

下表列出了重新配置操作的 Amazon EMR 事件,以及该事件表示的状态或状态更改、事件的严重性以及事件消息。

状态或状态变更 严重性 消息
RUNNING INFO

Amazon EMR 集群InstanceGroupIDClusterId (ClusterName)中的实例组的重新配置是由用户启动的。Time请求的配置版本为 Num

RECONFIGURINGRunning

INFO

Amazon EMR 集群InstanceGroupID中实例组的重新配置操作ClusterId (ClusterName)已完成。重新配置已于 Time 开始,花费 Num 分钟完成。当前配置版本为 Num

RUNNINGRECONFIGURING

in
INFO

Amazon EMR 集群InstanceGroupID中实例组的重新配置ClusterId (ClusterName)始于。Time它从版本号 Num 配置为版本号 Num

RESIZING INFO

Time由于实例组已在 Amazon 集群InstanceGroupID中,因此暂时禁止对 Amazon EMR 集群ClusterId (ClusterName)State实例组的配置版本Num重新配置操作。

RECONFIGURING INFO Amazon EMR 集群InstanceGroupID中实例组Num的实例数调整操作ClusterId (ClusterName)被暂时阻止,Time因为该实例组已在State
RECONFIGURING WARNING

Amazon EMR 集群InstanceGroupID中实例组的重新配置操作ClusterId (ClusterName)失败Time并花了Num几分钟才失败。失败的配置版本为 Num

RECONFIGURING INFO

Amazon EMR 集群中实例组InstanceGroupID的配置正在恢复到之前Num的成功版本号,网址ClusterId (ClusterName)Time。新配置版本为 Num

RECONFIGURINGRunning

INFO

Amazon EMR 集群ClusterId (ClusterName)中实例组Num的配置已成功恢复到之前InstanceGroupID的成功版本。Time新配置版本为 Num

RECONFIGURINGSUSPENDED

CRITICAL

无法将Amazon EMR 集群InstanceGroupIDClusterId (ClusterName)中的实例组恢复到之前的成功版本NumTime

自动伸缩策略事件

状态或状态变更 严重性 消息
PENDING INFO

Auto Scaling 策略已添加到 Amazon EMR 集群InstanceGroupID中的实例组,网ClusterId (ClusterName)址为Time。策略正在等待附加。

–或者–

Amazon EMR 集群InstanceGroupID中实例组的 Auto Scaling 策略ClusterId (ClusterName)已在上更新Time。策略正在等待附加。

ATTACHED INFO

Amazon EMR 集群InstanceGroupID中实例组的 Auto Scaling 策略ClusterId (ClusterName)已附在Time

DETACHED

INFO

Amazon EMR 集群InstanceGroupID中实例组的 Auto Scaling 策略ClusterId (ClusterName)已在中断开Time

FAILED ERROR

Amazon EMR 集群InstanceGroupID中实例组的 Auto Scaling 策略ClusterId (ClusterName)无法附加且失败了Time

–或者–

Amazon EMR 集群InstanceGroupID中实例组的 Auto Scaling 策略ClusterId (ClusterName)无法分离并失败了。Time

步骤事件

状态或状态变更 严重性 消息
PENDING INFO

步骤StepID (StepName)已添加到 Amaz ClusterId (ClusterName) on EMR 集群Time,正在等待执行。

CANCEL_PENDING WARN

Amazon EMR 集群StepID (StepName)中的步骤已ClusterId (ClusterName)于取消Time,正在等待取消。

RUNNING INFO

Amazon EMR 集群StepID (StepName)中的步骤ClusterId (ClusterName)开始在运行Time

COMPLETED INFO

Amazon EMR 集群StepID (StepName)中的步骤已于ClusterId (ClusterName)完成执行Time。此步骤已于 Time 开始运行,花费 Num 分钟时间完成。

CANCELLED WARN

StepID (StepName)在 Amazon 集群中取消集EMR群步骤ClusterId (ClusterName)的请求已成功Time,该步骤现已取消。

FAILED ERROR

StepID (StepName)在 Amazon EMR 集群中执行步骤ClusterId (ClusterName)失败Time

运行状况不佳的节点替换事件

事件类型 严重性 事件代码 消息

Amazon EMR 不健康的节点替换

INFO

检测到运行状况不佳的核心节点

亚马逊EMR已确定亚马逊EMR集群[instanceID (InstanceName)]InstanceGroup/Fleet中的核心实例clusterID (ClusterName)UNHEALTHY。Amazon EMR 将尝试恢复或优雅地替换该UNHEALTHY实例。

Amazon EMR 不健康的节点替换

INFO

核心节点运行状况不佳:替换已禁用

亚马逊EMR已确定亚马逊EMR集群[instanceID (InstanceName)]InstanceGroup/Fleet中的核心实例(clusterID) (ClusterName)UNHEALTHY。在集群中开启优雅的不健康核心节点替换,让 Amazon 在UNHEALTHY实例无法恢复时EMR优雅地替换它们。

Amazon EMR 不健康的节点替换

WARN

未替换运行状况不佳的核心节点

出于某种原因,亚马逊EMR无法[instanceID (InstanceName)]在亚马逊EMR集群InstanceGroup/FleetclusterID (ClusterName)中替换您的UNHEALTHY核心实例。

注意

Amazon EMR 无法替换您的核心节点的原因因因您的情况而异。例如,Amazon EMR 无法删除节点的原因之一是因为集群没有任何剩余的核心节点。

Amazon EMR 不健康的节点替换

INFO

运行状况不佳的核心节点已恢复

Amazon EMR 已在 Amazon EMR 集群[instanceID (InstanceName)]InstanceGroup/Fleet中恢复了您的UNHEALTHY核心实例 clusterID (ClusterName)

有关运行状况不佳的节点替换的更多信息,请参阅替换运行状况不佳的节点

使用 Amazon EMR 控制台查看事件

对于每个集群,您可以在详细信息窗格中查看简单的事件列表,该列表按发生顺序降序列出事件。您还可以按照事件发生顺序的降序查看区域中所有集群的所有事件。

如果您不希望用户查看区域的所有集群事件,请向附加到用户的策略添加一条语句,该语句拒绝对 "Effect": "Deny" 操作的权限 (elasticmapreduce:ViewEventsFromAllClustersInConsole)。

使用控制台查看区域中所有集群的事件
  1. 登录 Amazon Web Services Management Console,然后通过 https://console.aws.amazon.com/em r 打开亚马逊EMR控制台。

  2. EC2在左侧导航窗格的开下EMR,选择事件

使用控制台查看特定集群的事件
  1. 登录 Amazon Web Services Management Console,然后通过 https://console.aws.amazon.com/em r 打开亚马逊EMR控制台。

  2. EC2在左侧导航窗格的 “开” 下EMR,选择 “集群”,然后选择一个集群。

  3. 要查看您的所有事件,请在集群详细信息页面上选择 Events(事件)选项卡。