监控 CloudWatch 事件 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

监控 CloudWatch 事件

Amazon EMR 跟踪事件并保存其相关信息最多七天。集群状态、实例组、自动扩展策略和步骤方面的更改都会导致系统记录事件。每个事件都有事件发生日期及时间等信息,以及有关事件的详细信息,如受影响的集群或实例组。

下表列出了 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性和事件消息。每个事件都以 JSON 对象表示,后者会自动发送到事件流。当您设置规则以使用 CloudWatch Events 进行事件处理时,JSON 对象特别重要,因为规则需要在此 JSON 对象中查找匹配模式。有关更多信息,请参阅《Amazon CloudWatch Events 用户指南》中的事件和事件模式Amazon EMR 事件

集群事件

状态或状态变更 严重性 消息

STARTING

INFO

已于 Time 请求 Amazon EMR 集群 ClusterId (ClusterName) 且当前正在创建中。

STARTING

INFO

注意

仅适用于带实例队列配置和 VPC 中选定的多个子网的集群。

Amazon EMR 集群 ClusterId (ClusterName) 将在可用区(AvailabilityZoneID,已从指定的 VPC 选项中选择)的 VPC(VPCName)中的子网(SubnetName)内创建。

STARTING

INFO

注意

仅适用于带实例队列配置和 EC2-Classic 中选定的多个可用区的集群。

Amazon EMR 集群 ClusterId (ClusterName) 将在可用区 (AvailabilityZoneID)(已从指定可用区选项中选择)中创建。

RUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 开始运行步骤。

WAITING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 创建完毕,随时可用。

- 或者 -

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 完成所有待处理步骤的运行。

注意

处于 WAITING 状态的集群仍可能是正在处理的作业。

TERMINATED

严重性视状态变更原因而定,如下所述:

  • CRITICAL 如果集群因以下任一状态变更原因而终止:INTERNAL_ERRORVALIDATION_ERRORINSTANCE_FAILUREBOOTSTRAP_FAILURESTEP_FAILURE

  • INFO 如果集群因以下任一状态变更原因而终止:USER_REQUESTALL_STEPS_COMPLETED

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 终止,原因为 StateChangeReason:Code

TERMINATED_WITH_ERRORS

CRITICAL

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 出错终止,原因为 StateChangeReason:Code

实例机群事件

注意

实例机群配置仅在 Amazon EMR 发行版 4.8.0 及更高版本(不包括 5.0.0 和 5.0.3)中可用。

状态或状态变更 严重性 消息

PROVISIONINGWAITING

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例机群 InstanceFleetID 的预置已完成。预配置操作已于 Time 开始,并且已花费 Num 分钟。实例机群现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

WAITINGRESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例机群 InstanceFleetID 的大小调整已于 Time 开始。实例队列的按需容量从 Num 调整到目标 Num,Spot 容量从 Num 调整到目标 Num

RESIZINGWAITING

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例机群 InstanceFleetID 的大小调整操作已完成。大小调整操作已于 Time 开始,并且已花费 Num 分钟。实例机群现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

RESIZINGWAITING

WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的实例机群 InstanceFleetID 的大小调整操作已超时并且已停止。大小调整操作于 Time 开始,并且在 Num 分钟后停止。实例机群现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

SUSPENDED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的实例机群 InstanceFleetID 已于 Time 捕获,原因为:ReasonDesc

RESIZING

WARNING

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例机群 InstanceFleetID 的大小调整操作发生卡顿,原因为:ReasonDesc

WAITING 或者 RUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例机群 InstanceFleetID 的大小调整已由 EntityTime 启动。

实例组事件

状态或状态变更 严重性 消息

RESIZINGRUNNING

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作已完成。它当前拥有 Num 个实例。大小调整操作于 Time 开始,花费 Num 分钟时间完成。

RUNNINGRESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 大小调整操作已于 Time 开始。它的实例数从 Num 个调整为 Num 个。

SUSPENDED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 已于 Time 捕获,原因为:ReasonDesc

RESIZING

WARNING

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作已卡住,原因为:ReasonDesc

RUNNINGRESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作已由 EntityTime 启动。

注意

对于 Amazon EMR 5.21.0 及更高版本,您可以覆盖集群配置,并为运行的集群中的每个实例组指定额外的配置分类。要完成此操作,您可以使用 Amazon EMR 控制台、Amazon Command Line Interface(Amazon CLI)或 Amazon SDK。有关更多信息,请参阅为运行的集群中的实例组提供配置

下表列出了重新配置操作的 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性和事件消息。

状态或状态变更 严重性 消息

RUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置已由用户于 Time 启动。请求的配置版本为 Num

RECONFIGURINGRUNNING

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置操作已完成。在 Time 时启动了重新配置,并需要 Num 分钟才能完成。当前配置版本为 Num

RUNNINGRECONFIGURING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的重新配置于 Time 开始。它从版本号 Num 配置为版本号 Num

RESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的配置版本 Num 的重新配置操作在 Time 被临时阻止,因为实例组处于 State 状态。

RECONFIGURING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的实例计数 Num 调整大小操作在 Time 被临时阻止,因为实例组处于 State 状态。

RECONFIGURING

WARNING

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的重新配置操作于 Time 失败,失败之前经过了 Num 分钟。失败的配置版本为 Num

RECONFIGURING

INFO

配置正在恢复到之前在 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupIDTime 的成功版本号 Num。新配置版本为 Num

RECONFIGURINGRUNNING

INFO

配置已成功恢复到之前在 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupIDTime 的成功版本 Num。新配置版本为 Num

RECONFIGURINGSUSPENDED

CRITICAL

无法恢复到之前在 Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupIDTime 的成功版本 Num

自动伸缩策略事件

状态或状态变更 严重性 消息

PENDING

INFO

Auto Scaling 策略已于 Time 添加到 Amazon EMR 集群 ClusterId (ClusterName) 内的实例组 InstanceGroupID。策略正在等待附加。

- 或者 -

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略已于 Time 更新。策略正在等待附加。

ATTACHED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略已于 Time 附加。

DETACHED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略已于 Time 分离。

FAILED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略无法附加,已于 Time 失败。

- 或者 -

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略无法分离,已于 Time 失败。

步骤事件

状态或状态变更 严重性 消息

PENDING

INFO

步骤 StepID (StepName) 已于 Time 添加到 Amazon EMR 集群 ClusterId (ClusterName),正在等待执行。

CANCEL_PENDING

WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 取消,正在等待取消。

RUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 开始运行。

COMPLETED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 执行完毕。此步骤于 Time 开始运行,花费 Num 分钟时间完成。

CANCELLED

WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的集群步骤 StepID (StepName) 的取消请求于 Time 成功完成,此步骤现已取消。

FAILED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName)Time 失败。

使用 Amazon EMR 控制台查看事件

对于每个集群,您可以在详细信息窗格中查看简单的事件列表,该列表按发生顺序降序列出事件。您还可以按照事件发生顺序的降序查看区域中所有集群的所有事件。

注意

如果您不希望用户查看区域的所有集群事件,请向附加到用户的策略添加一条语句,该语句拒绝对 "Effect": "Deny" 操作的权限 (elasticmapreduce:ViewEventsFromAllClustersInConsole)。

查看区域中所有集群的事件

  1. 通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Events (事件)

查看特定集群的事件

  1. 通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Cluster List (集群列表),选择一个集群,然后选择 View details (查看详细信息)

  3. 在集群详细信息窗格中选择 Events (事件)

    
								在集群详细信息窗格中查看 Amazon EMR 事件。

使用 CloudWatch 为 Amazon EMR 事件创建规则

Amazon EMR 自动将事件发送到 CloudWatch 事件流。您可以根据特定的模式创建匹配事件的规则,以便将事件路由到目标来执行操作,如发送电子邮件通知。针对事件的 JSON 对象匹配模式。有关 Amazon EMR 事件的详细信息,请参阅《Amazon CloudWatch Events 用户指南》中的 Amazon EMR 事件

有关设置 CloudWatch 事件规则的信息,请参阅创建触发事件的 CloudWatch 规则