通过 CloudWatch 监控 Amazon EMR 事件 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

通过 CloudWatch 监控 Amazon EMR 事件

Amazon EMR 跟踪事件并在 Amazon EMR 控制台中保存其相关信息最多七天。当集群、实例组、实例集、自动扩缩策略或步骤的状态发生变化时,Amazon EMR 会记录事件。事件捕获事件发生的日期和时间、有关受影响元素的详细信息以及其他关键数据点。

下表列出了 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性、事件类型、事件代码和事件消息。Amazon EMR 将事件表示为 JSON 对象并将其自动发送到事件流。当您设置规则以使用 CloudWatch Events 进行事件处理时,JSON 对象非常重要,因为规则需要在此 JSON 对象中查找匹配模式。有关更多信息,请参阅《Amazon CloudWatch Events 用户指南》中的事件和事件模式Amazon EMR 事件

注意

为确保向您提供最相关的信息,我们会不断完善错误消息。因此,建议您不要通过解析消息中的文本来启动工作流中的后续操作。

集群启动事件

状态或状态变更 严重性 事件类型 事件代码 消息
CREATING WARN Amazon EMR 实例集预置 EC2 预置 – 实例容量不足 我们无法为实例集 InstanceFleetID 创建您的 Amazon EMR 集群 ClusterId (ClusterName) Amazon EC2 的实例类型 [Instancetype1, Instancetype2] 竞价容量不足,且可用区 [Instancetype3, Instancetype4] 中的实例类型 [AvailabilityZone1, AvaliabilityZone2] 的按需容量不足。有关如何应对此事件的更多信息,请查看此处的文档
CREATING WARN Amazon EMR 实例组预置 EC2 预置 – 实例容量不足 我们无法为实例组 InstancegroupID 创建您的 Amazon EMR 集群 ClusterId (ClusterName) Amazon EC2 的实例类型 Instancetype 在可用区 AvailabilityZone 中的 [Spot or On-Demand] 容量不足。有关如何应对此事件的更多信息,请查看此处的文档
STARTING INFO

EMR 集群状态更改

none

已于 Time 请求 Amazon EMR 集群 ClusterId (ClusterName),且当前正在创建中。

STARTING INFO

EMR 集群状态更改

none

注意

仅适用于带实例集配置和 Amazon EC2 中选定的多个可用区的集群。

Amazon EMR 集群 ClusterId (ClusterName) 正在从指定可用区选项中选择的区域 (AvailabilityZoneID) 中创建。

STARTING INFO

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId (ClusterName)Time 开始运行步骤。

WAITING INFO

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId (ClusterName)Time 创建,并已准备就绪。

- 或 -

Amazon EMR 集群 ClusterId (ClusterName)Time 完成所有待处理步骤的运行。

注意

处于 WAITING 状态的集群可能仍是正在处理的作业。

注意

当您的 EMR 集群在创建集群或调整集群大小操作期间遇到来自 Amazon EC2 的实例集或实例组容量不足错误时,会定期触发事件代码为 EC2 provisioning - Insufficient Instance Capacity 的事件。有关如何响应这些事件的更多信息,请参阅 响应 Amazon EMR 集群实例容量不足事件

集群终止事件

状态或状态变更 严重性 事件类型 事件代码 消息
TERMINATED

严重性视状态变更原因而定,如下所述:

  • CRITICAL 如果集群因以下任一状态变更原因而终止:INTERNAL_ERRORVALIDATION_ERRORINSTANCE_FAILUREBOOTSTRAP_FAILURESTEP_FAILURE

  • INFO 如果集群因以下任一状态变更原因而终止:USER_REQUESTALL_STEPS_COMPLETED

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 终止,原因是 StateChangeReason:Code

TERMINATED_WITH_ERRORS CRITICAL

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 因错误终止,原因是 StateChangeReason:Code

实例集状态更改事件

注意

实例集配置仅在 Amazon EMR 发行版 4.8.0 及更高版本(不包括 5.0.0 和 5.0.3)中可用。

状态或状态变更 严重性 事件类型 事件代码 消息

PROVISIONINGWAITING

INFO none

Amazon EMR 集群 InstanceFleetID 中对实例集 ClusterId (ClusterName) 的预置已完成。预置已于 Time 开始,并且已花费 Num 分钟。实例集现在的按需容量为 Num,竞价型容量为 Num。目标按需容量为 Num,目标竞价型容量为 Num

WAITINGRESIZING

INFO none

对 Amazon EMR 集群 ClusterId (ClusterName) 中实例集 InstanceFleetID 的大小调整已于 Time 开始。实例集的大小从按需容量 Num 调整到目标的 Num,而竞价型容量则从 Num 调整到目标的 Num

RESIZINGWAITING

INFO none

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetID 的大小调整操作已完成。大小调整已于 Time 开始,并且已花费 Num 分钟。实例集现在的按需容量为 Num,竞价型容量为 Num。目标按需容量为 Num,目标竞价型容量为 Num

RESIZINGWAITING

INFO none

Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetID 的大小调整操作已超时并且已停止。大小调整已于 Time 开始,并且在 Num 分钟后停止。实例集现在的按需容量为 Num,竞价型容量为 Num。目标按需容量为 Num,目标竞价型容量为 Num

SUSPENDED ERROR none

由于以下原因,Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetIDTime 被捕获:ReasonDesc

RESIZING WARNING none

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetID 的大小调整操作发生卡顿,原因为:ReasonDesc

WAITINGRunning

INFO none

当 Amazon EMR 在可用区 AvailabilityZone 中添加竞价型容量时,无法完成 Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetID 的大小调整操作。已取消您预置额外 Spot 容量的请求。有关推荐的操作,请查看 实例和可用区灵活性的最佳实践 并重试。

WAITINGRunning

INFO none

Amazon EMR 集群 InstanceFleetID 中的实例集 ClusterId (ClusterName) 的大小调整操作由 EntityTime 启动。

实例集大小调整事件

事件类型 严重性 事件代码 消息

Amazon EMR 实例集大小调整

ERROR

竞价型预置超时

在可用区 AvailabilityZone 中获取竞价型容量时,无法完成 Amazon EMR 集群 ClusterId (ClusterName) 中实例集 InstanceFleetID 的大小调整操作。我们现在已经取消了您的请求并停止尝试预置任何额外的竞价型容量,并且实例集已经预置了 num 的竞价型容量。目标竞价型容量为 num。有关更多信息和建议的操作,请查看此处的文档页面,然后重试。

Amazon EMR 实例集大小调整

ERROR

按需预置超时

在可用区 AvailabilityZone 中获取按需容量时,无法完成 Amazon EMR 集群 ClusterId (ClusterName) 中实例集 InstanceFleetID 的大小调整操作。我们现在已经取消了您的请求并停止尝试预置任何额外的按需容量,并且实例集已经预置了 num 的按需容量。目标按需容量为 num。有关更多信息和建议的操作,请查看此处的文档页面,然后重试。

Amazon EMR 实例集大小调整

WARNING EC2 预置 – 实例容量不足

我们无法完成 EMR 集群 ClusterId (ClusterName) 中实例集 InstanceFleetID 的大小调整操作,因为Amazon EC2 实例类型 [Instancetype1, Instancetype2] 的竞价型容量不足,且可用区 [AvailabilityZone1] 中的实例类型 [Instancetype3, Instancetype4] 的按需容量不足。实例集预置的按需容量为 num,目标按需容量为 num。预置的竞价型容量为 num,目标竞价型容量为 num。有关如何应对此事件的更多信息,请查看此处的文档

Amazon EMR 实例集大小调整

WARNING

竞价型预置超时 – 继续调整大小

我们仍在为实例集大小调整操作预置竞价型容量,该操作于 time 在可用区 AvailabilityZone[Instancetype1, Instancetype2] 的 Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 ID InstanceFleetID 启动。对于在 time 启动的之前的大小调整操作,超时时间已过期,因此 Amazon EMR 在将请求的 num 实例的 num 添加到您的实例集后停止预置竞价型容量。有关更多信息,请查看此处的文档页面。

Amazon EMR 实例集大小调整

WARNING

按需预置超时 – 继续调整大小

我们仍在为实例集大小调整操作预置按需容量,该操作于 time 在可用区 AvailabilityZone[Instancetype1, Instancetype2] Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 ID InstanceFleetID 启动。对于在 time 启动的之前的大小调整操作,超时时间已过期,因此 Amazon EMR 在将请求的 num 实例的 num 添加到您的实例集后停止预置按需容量。有关更多信息,请查看此处的文档页面。

注意

超时到期后,当 Amazon EMR 停止为实例集预置竞价型或按需容量时,就会发出预置超时事件。有关如何响应这些事件的更多信息,请参阅 响应 Amazon EMR 集群实例集调整大小超时事件

实例组事件

事件类型 严重性 事件代码 消息

RESIZINGRunning

INFO none

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作已完成。它当前拥有 Num 个实例。大小调整操作已于 Time 开始,花费 Num 分钟时间完成。

RUNNINGRESIZING

INFO none

对 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的大小调整已于 Time 开始。它的实例数从 Num 个调整为 Num 个。

SUSPENDED ERROR none

由于以下原因,Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupIDTime 被捕获:ReasonDesc

RESIZING WARNING none

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作发生卡顿,原因为:ReasonDesc

Amazon EMR 实例组调整大小

WARNING EC2 预置 – 实例容量不足

我们无法完成 EMR 集群 ClusterId (ClusterName) 中于 time 开始对实例组 InstanceGroupID 的调整大小操作,因为 Amazon EC2 在可用区 [AvailabilityZone1] 中的实例类型 [Instancetype] 容量 Spot/On Demand 不足。到目前为止,该实例组的运行实例计数为 num,请求的实例计数为 num。有关如何应对此事件的更多信息,请查看此处的文档

RUNNINGRESIZING

INFO none

Amazon EMR 集群 InstanceGroupID 中的实例组 ClusterId (ClusterName) 的大小调整由 EntityTime 启动。

注意

对于 Amazon EMR 5.21.0 及更高版本,您可以覆盖集群配置,并为运行的集群中的每个实例组指定额外的配置分类。要完成此操作,您可以使用 Amazon EMR 控制台、Amazon Command Line Interface(Amazon CLI)或 Amazon SDK。有关更多信息,请参阅为运行的集群中的实例组提供配置

下表列出了重新配置操作的 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性和事件消息。

状态或状态变更 严重性 消息
RUNNING INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置由用户于 Time 启动。请求的配置版本为 Num

RECONFIGURINGRunning

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置操作已完成。重新配置已于 Time 开始,花费 Num 分钟完成。当前配置版本为 Num

RUNNINGRECONFIGURING

in
INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的重新配置已于 Time 开始。它从版本号 Num 配置为版本号 Num

RESIZING INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的配置版本 Num 的重新配置操作在 Time 被临时阻止,因为实例组处于 State 状态。

RECONFIGURING INFO Amazon EMR 集群 ClusterId (ClusterName) 中实例组 Time 的实例计数 Num 的调整大小操作在 InstanceGroupID 被临时阻止,因为实例组处于 State 状态。
RECONFIGURING WARNING

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的重新配置操作于 Time 失败,失败之前经过了 Num 分钟。失败的配置版本为 Num

RECONFIGURING INFO

配置正在恢复到在 Time 时 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的上一个成功版本号 Num。新配置版本为 Num

RECONFIGURINGRunning

INFO

配置已成功恢复到在 Time 时 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的上一个成功版本号 Num。新配置版本为 Num

RECONFIGURINGSUSPENDED

CRITICAL

无法恢复到在 Time 时 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的上一个成功版本号 Num

自动伸缩策略事件

状态或状态变更 严重性 消息
PENDING INFO

自动扩缩策略已于 Time 添加到 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID。策略正在等待附加。

- 或 -

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的自动扩缩策略已于 Time 更新。策略正在等待附加。

ATTACHED INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的自动扩缩策略已于 Time 附加。

DETACHED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的自动扩缩策略已于 Time 分离。

FAILED ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的自动扩缩策略无法附加,并于 Time 失败。

- 或 -

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的自动扩缩策略无法分离,并于 Time 失败。

步骤事件

状态或状态变更 严重性 消息
PENDING INFO

步骤 StepID (StepName) 已于 Time 添加到 Amazon EMR 集群 ClusterId (ClusterName),正在等待执行。

CANCEL_PENDING WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 取消,正在等待取消。

RUNNING INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 开始运行。

COMPLETED INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 Time 已于 StepID (StepName) 完成执行。此步骤已于 Time 开始运行,花费 Num 分钟时间完成。

CANCELLED WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的集群步骤 StepID (StepName) 的取消请求于 Time 成功完成,此步骤现已取消。

FAILED ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName)Time 失败。

使用 Amazon EMR 控制台查看事件

对于每个集群,您可以在详细信息窗格中查看简单的事件列表,该列表按发生顺序降序列出事件。您还可以按照事件发生顺序的降序查看区域中所有集群的所有事件。

如果您不希望用户查看区域的所有集群事件,请向附加到用户的策略添加一条语句,该语句拒绝对 "Effect": "Deny" 操作的权限 (elasticmapreduce:ViewEventsFromAllClustersInConsole)。

注意

我们重新设计了 Amazon EMR 控制台,以便其易于使用。请参阅 控制台中的新增功能,以了解有关新旧控制台体验差异的信息。

New console
使用新控制台查看区域中所有集群的事件
  1. 登录 Amazon Web Services Management Console 并打开 Amazon EMR 控制台,网址为 https://console.aws.amazon.com/emr

  2. 在左侧导航窗格中的 EMR on EC2 下,选择 Events(事件)。

使用新控制台查看特定集群的事件
  1. 登录 Amazon Web Services Management Console 并打开 Amazon EMR 控制台,网址为 https://console.aws.amazon.com/emr

  2. 在左侧导航窗格中的 EMR on EC2 下,选择 Clusters(集群),然后选择集群。

  3. 要查看您的所有事件,请在集群详细信息页面上选择 Events(事件)选项卡。

Old console
使用旧控制台查看区域中所有集群的事件
  1. 通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Events (事件)

使用旧控制台查看特定集群的事件
  1. 通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Cluster List (集群列表),选择一个集群,然后选择 View details (查看详细信息)

  3. 在集群详细信息窗格中选择 Events (事件)