监控 CloudWatch 事件 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 CloudWatch 事件

Amazon EMR 跟踪事件并在 Amazon EMR 控制台中保存其相关信息最多七天。当集群、实例组、自动扩缩策略或步骤的状态发生变化时,Amazon EMR 会记录事件。事件捕获事件发生的日期和时间、有关受影响元素的详细信息以及其他关键数据点。

下表列出了 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性和事件消息。Amazon EMR 将事件表示为 JSON 对象并将其自动发送到事件流。当您设置规则以使用 CloudWatch Events 进行事件处理时,JSON 对象非常重要,因为规则需要在此 JSON 对象中查找匹配模式。有关更多信息,请参阅《亚马逊活动用户指南》中的事件和事件模式以及 Amazon EMR CloudWatch 事件

注意

为确保向您提供最相关的信息,我们会不断完善错误消息。因此,建议您不要通过解析消息中的文本来启动工作流中的后续操作。

集群启动事件

状态或状态变更 严重性 事件类型 事件代码 消息

STARTING

INFO

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId(ClusterName) 是在当时请求的,正在创建中。

STARTING

INFO

EMR 集群状态更改

none

注意

仅适用于带实例集配置和 EC2-Classic 中选定的多个可用区的集群。

Amazon EMR 集群 ClusterId(ClusterName) 将在可用区 (AvailabilityZoneID)(已从指定可用区选项中选择)中创建。

STARTING

INFO

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId(ClusterName) 在 Time 开始运行步骤。

WAITING

INFO

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId(ClusterName) 已在 Tim e 上创建并已准备就绪,可供使用。

- 或 -

Amazon EMR 集群 ClusterId(ClusterName) 已于 Time 完成所有待处理步骤的运行

注意

处于 WAITING 状态的集群可能仍是正在处理的作业。

集群终止事件

状态或状态变更 严重性 事件类型 事件代码 消息

TERMINATED

严重性视状态变更原因而定,如下所述:

  • CRITICAL 如果集群因以下任一状态变更原因而终止:INTERNAL_ERRORVALIDATION_ERRORINSTANCE_FAILUREBOOTSTRAP_FAILURESTEP_FAILURE

  • INFO 如果集群因以下任一状态变更原因而终止:USER_REQUESTALL_STEPS_COMPLETED

EMR 集群状态更改

none

Amazon EMR 集群 ClusterId(ClusterName) 已于 Ti m e 终止,原因是:code StateChangeReason。

TERMINATED_WITH_ERRORS

CRITICAL

EMR 集群状态更改

none

Amazon EMR Cl ClusterIduster (ClusterName) 在 Time 因错误而终止,原因是:code StateChangeReason。

实例集状态更改事件

注意

实例集配置仅在 Amazon EMR 发行版 4.8.0 及更高版本(不包括 5.0.0 和 5.0.3)中可用。

状态或状态变更 严重性 事件类型 事件代码 消息

PROVISIONINGWAITING

INFO

none

Amazon EMR 集群 ClusterId (ClusterName) 中实例队列 InstanceFleetID 的配置已完成。预配置操作已于 Time 开始,并且已花费 Num 分钟。实例集现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

WAITINGRESIZING

INFO

none

在 Time 开始调整 Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 的大小。实例队列的按需容量从 Num 调整到目标 Num,Spot 容量从 Num 调整到目标 Num

RESIZINGWAITING

INFO

none

Amazon EMR 集群 ClusterId (ClusterName) 中实例队列 InstanceFleetID 的大小调整操作已完成。大小调整操作已于 Time 开始,并且已花费 Num 分钟。实例集现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

RESIZINGWAITING

INFO

none

Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetID 的大小调整操作已超时并且已停止。大小调整操作于 Time 开始,并且在 Num 分钟后停止。实例集现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

SUSPENDED

ERROR

none

Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 在 Ti m e 被逮捕的原因如下:ReasonDesc

RESIZING

WARNING

none

Amazon EMR 集群 ClusterId (ClusterName) 中实例队列 InstanceFleetID 的大小调整操作因以下原因而停滞不前:ReasonDesc

WAITING 或者 RUNNING

INFO

none

当 Amazon EMR 在可用区中添加 Spot 容量时,无法完成 Amazon EMR 集群 ClusterId (ClusterName) 中实例集 InstanceFleetID 的大小调整操作AvailabilityZone。已取消您预置额外 Spot 容量的请求。有关推荐的操作,请查看 实例和可用区灵活性的最佳实践 并重试。

WAITING 或者 RUNNING

INFO

none

Amazon EMR 集群 ClusterId (ClusterName) 中实例队列 InstanceFleetID 的大小调整操作由 Intity at T i m e 启动。

实例集大小调整事件

事件类型 严重性 事件代码 消息

Amazon EMR 实例集大小调整

ERROR

Spot 预调配超时

当时在 Amazon EMR 集群 ClusterId (ClusterName) 中启动的实例队列 InstanceFleetID 的大小调整操作无法为可用区中的实例类型 [Instancetype1,InstanceType2] 预置请求的竞价容量AvailabilityZone。由于预调配 Spot 容量的超时时间已过,我们现在已经取消了您的请求并停止尝试预调配任何额外的 Spot 容量。实例集预调配的 Spot 容量为 num,目标 Spot 容量为 num。有关建议的操作,请查看此处的文档页面,然后重试。

Amazon EMR 实例集大小调整

ERROR

按需预调配超时

Amazon EMR 集群 ClusterId (ClusterName)当时启动的实例队列 InstanceFleetID 的大小调整操作无法为可用区中的实例类型 [Instancetype1,InstanceType2] 预置请求的按需容量AvailabilityZone。由于预调配按需容量的超时时间已过,我们现在已经取消了您的请求并停止尝试预调配任何额外的按需容量。实例集预调配的按需容量为 num,目标按需容量为 num。有关建议的操作,请查看此处的文档页面,然后重试。

Amazon EMR 实例集大小调整

WARNING

Spot 预调配超时 - 继续调整大小

我们仍在尝试为 Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetID 预调配 Spot 容量,因为在 time 提交了新的大小调整操作。实例集 InstanceFleetID 预调配的 Spot 容量为 num,目标 Spot 容量为 num。在 Spot 预调配超时AvailabilityZone前,time 启动的最后一次大小调整操作无法为可用区中的实例类型 [instance type1, instance type2] 预调配请求的 Spot 容量。有关建议,请查看此处的文档页面。

Amazon EMR 实例集大小调整

WARNING

按需预调配超时 - 继续调整大小

我们仍在尝试为 Amazon EMR 集群 ClusterId (ClusterName) 中的实例集 InstanceFleetID 预调配按需容量,因为在 time 提交了新的大小调整操作。实例集 InstanceFleetID 预调配的按需容量为 num,目标 Spot 容量为 num。在按需预调配超时AvailabilityZone前,time 启动的最后一次大小调整操作无法为可用区中的实例类型 [instance type1, instance type2] 预调配请求的按需容量。有关建议,请查看此处的文档页面。

实例组事件

状态或状态变更 严重性 消息

RESIZINGRUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的大小调整操作已完成。它当前拥有 Num 个实例。大小调整操作于 Time 开始,花费 Num 分钟时间完成。

RUNNINGRESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整于 Tim e 开始。它的实例数从 Num 个调整为 Num 个。

SUSPENDED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 在 Tim e 被逮捕的原因如下:ReasonDesc

RESIZING

WARNING

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的大小调整操作停滞不前,原因如下:ReasonDesc

RUNNINGRESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的大小调整是由 Intity at T i m e 启动的。

注意

对于 Amazon EMR 5.21.0 及更高版本,您可以覆盖集群配置,并为运行的集群中的每个实例组指定额外的配置分类。要完成此操作,您可以使用 Amazon EMR 控制台、Amazon Command Line Interface(Amazon CLI)或 Amazon SDK。有关更多信息,请参阅为运行的集群中的实例组提供配置

下表列出了重新配置操作的 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性和事件消息。

状态或状态变更 严重性 消息

RUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置是由用户在 Tim e 启动的。请求的配置版本为 Num

RECONFIGURINGRUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的重新配置操作已完成。在 Time 时启动了重新配置,并需要 Num 分钟才能完成。当前配置版本为 Num

RUNNINGRECONFIGURING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置于 Tim e。它从版本号 Num 配置为版本号 Num

RESIZING

INFO

由于实例组处于状态,因此 Amazon EMR 集群 ClusterId (ClusterName) 中针对实例组 InstanceGroupID 的配置版本号重新配置操作暂被阻止。

RECONFIGURING

INFO

由于实例组处于状态,因此 Amazon EMR 集群 ClusterId (ClusterName) 中针对实例组 InstanceGroupID 的实例数调整操作在 Time 暂时被阻止。

RECONFIGURING

WARNING

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的重新配置操作当时失败,花了分钟才失败。失败的配置版本为 Num

RECONFIGURING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的配置将恢复到之前成功的版本号 Num新配置版本为 Num

RECONFIGURINGRUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的配置已成功恢复到之前的成功版本 Num新配置版本为 Num

RECONFIGURINGSUSPENDED

CRITICAL

无法在 Amazon EMR 集群 ClusterId (ClusterName) 中恢复到之前成功的实例组 InstanceGroupID 版本 Num

自动伸缩策略事件

状态或状态变更 严重性 消息

PENDING

INFO

当时,Auto Scaling 策略已添加到 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID策略正在等待附加。

- 或 -

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略已于 Tim e 更新。策略正在等待附加。

ATTACHED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略是在 Tim e 上附加的。

DETACHED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中针对实例组 InstanceGroupID 的 Auto Scaling 策略当时已分离。

FAILED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中针对实例组 InstanceGroupID 的 Auto Scaling 策略无法连接并且当时失败。

- 或 -

Amazon EMR 集群 ClusterId (ClusterName) 中针对实例组 InstanceGroupID 的 Auto Scaling 策略无法分离且当时失败。

步骤事件

状态或状态变更 严重性 消息

PENDING

INFO

StepID (StepName) 当时已添加到 Amazon EMR 集群 ClusterId (ClusterName) 中,正在等待执行。

CANCEL_PENDING

WARN

Amazon EMR 集群 (StepName) 中的步骤 stepIDClusterId (ClusterName) 当时已取消,正在等待取消。

RUNNING

INFO

亚马逊 EMR 集群 (StepName) 中的步骤 stepIDClusterId (ClusterName) 于 Tim e 开始运行。

COMPLETED

INFO

亚马逊 EMR 集群 (StepName) 中的步骤 stepIDClusterId (ClusterName) 已按完成执行。此步骤于 Time 开始运行,花费 Num 分钟时间完成。

CANCELLED

WARN

Amazon EMR 集群 (StepName) 中的集群步骤 StepIDClusterId (ClusterName) 的取消请求于 Ti m e 成功完成,此步骤现已取消。

FAILED

ERROR

亚马逊 EMR 集群 (StepName) 中的步骤 stepIDClusterId (ClusterName) 当时失败。

使用 Amazon EMR 控制台查看事件

对于每个集群,您可以在详细信息窗格中查看简单的事件列表,该列表按发生顺序降序列出事件。您还可以按照事件发生顺序的降序查看区域中所有集群的所有事件。

如果您不希望用户查看区域的所有集群事件,请向附加到用户的策略添加一条语句,该语句拒绝对 "Effect": "Deny" 操作的权限 (elasticmapreduce:ViewEventsFromAllClustersInConsole)。

注意

我们重新设计了 Amazon EMR 控制台,以便其易于使用。请参阅 控制台中的新增功能,以了解有关新旧控制台体验差异的信息。

New console
使用新控制台查看区域中所有集群的事件
  1. 登录并打开 Amazon EMR 控制台,网址为 https://console.aws.amazon.com/emr。Amazon Web Services Management Console

  2. 在左侧导航窗格中的 EMR on EC2 下,选择 Events(事件)。

使用新控制台查看特定集群的事件
  1. 登录并打开 Amazon EMR 控制台,网址为 https://console.aws.amazon.com/emr。Amazon Web Services Management Console

  2. 在左侧导航窗格中的 EMR on EC2 下,选择 Clusters(集群),然后选择集群。

  3. 要查看您的所有事件,请在集群详细信息页面上选择 Events(事件)选项卡。

Old console
使用旧控制台查看区域中所有集群的事件
  1. 通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Events (事件)

使用旧控制台查看特定集群的事件
  1. 通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Cluster List (集群列表),选择一个集群,然后选择 View details (查看详细信息)

  3. 在集群详细信息窗格中选择 Events (事件)

使用监控Amazon EMR 事件创建规则CloudWatch

Amazon EMR 自动将事件发送到 CloudWatch 事件流。您可以根据特定的模式创建匹配事件的规则,以便将事件路由到目标来执行操作,如发送电子邮件通知。针对事件的 JSON 对象匹配模式。有关 Amazon EMR 事件的详细信息,请参阅《Amazon Events 用户指南》中的 Amazon EMR CloudWatch 事件

有关设置 CloudWatch 事件规则的详细信息,请参阅创建触发事件的 CloudWatch 规则