Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

监控 CloudWatch 事件

Amazon EMR 跟踪事件并保存其相关信息最多七天。集群状态、实例组、自动扩展策略和步骤方面的更改都会导致系统记录事件。每个事件都有事件发生日期及时间等信息,以及有关事件的更多详情,如受影响的集群或实例组。

下表列出了 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性和事件消息。每个事件都以 JSON 对象表示,后者会自动发送到事件流。JSON 对象包含有关事件的更多详情。当您设置规则以使用 CloudWatch Events 进行事件处理时,JSON 对象特别重要,因为规则需要在此 JSON 对象中查找匹配模式。有关更多信息,请参阅 Amazon CloudWatch Events 用户指南中的事件和事件模式Amazon EMR 事件

集群事件

状态或状态变更 严重性 消息

STARTING

INFO

已于 Time 请求 Amazon EMR 集群 ClusterId (ClusterName),当前正在创建该项。

STARTING

INFO

注意

仅适用于带实例队列配置和 VPC 中选定的多个子网的集群。

Amazon EMR 集群 ClusterId (ClusterName) 将在可用区(AvailabilityZoneID,已从指定的 VPC 选项中选择)的 VPC (VPCName) 中的子网 (SubnetName) 内创建。

STARTING

INFO

注意

仅适用于带实例队列配置和 EC2-Classic 中选定的多个可用区的集群。

Amazon EMR 集群 ClusterId (ClusterName) 将在可用区(AvailabilityZoneID,已从指定可用区选项中选择)中创建。

RUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 开始运行步骤。

WAITING

INFO

Amazon EMR 集群 ClusterId (ClusterName)Time 创建完毕,随时可用。

—或者—

Amazon EMR 集群 ClusterId (ClusterName)Time 完成所有待处理步骤的运行。

注意

处于 WAITING 状态的集群仍可能是正在处理的作业。

TERMINATED

严重性视状态变更原因而定,如下所述:

  • CRITICAL 如果集群因以下任一状态变更原因而终止:INTERNAL_ERRORVALIDATION_ERRORINSTANCE_FAILUREBOOTSTRAP_FAILURESTEP_FAILURE

  • INFO 如果集群因以下任一状态变更原因而终止:USER_REQUESTALL_STEPS_COMPLETED

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 终止,原因为 StateChangeReason:Code

TERMINATED_WITH_ERRORS

CRITICAL

Amazon EMR 集群 ClusterId (ClusterName) 已于 Time 出错而终止,原因为 StateChangeReason:Code

实例队列事件

注意

实例队列配置仅在 Amazon EMR 版本 4.8.0 和更高版本中可用 (不包括 5.0.0 和 5.0.3)。

状态或状态变更 严重性 消息

PROVISIONINGWAITING

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 的预配置已完成。预配置操作已于 Time 开始,并且已花费 Num 分钟。实例队列现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

WAITINGRESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 的大小调整已于 Time 开始。实例队列的按需容量从 Num 调整到目标 Num,Spot 容量从 Num 调整到目标 Num

RESIZINGWAITING

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 的大小调整操作已完成。大小调整操作已于 Time 开始,并且已花费 Num 分钟。实例队列现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

RESIZINGWAITING

WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 的大小调整操作已超时并且已停止。大小调整操作于 Time 开始,并且在 Num 分钟后停止。实例队列现在的按需容量为 Num,Spot 容量为 Num。目标按需容量为 Num,目标 Spot 容量为 Num

ARRESTED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 已于 Time 捕获,原因为:ReasonDesc

RESIZING

WARNING

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 的大小调整操作已卡住,原因为:ReasonDesc

WAITINGRUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例队列 InstanceFleetID 的大小调整由 EntityTime 启动。

实例组事件

状态或状态变更 严重性 消息

RESIZINGRUNNING

INFO

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作已完成。它当前拥有 Num 个实例。大小调整操作于 Time 开始,花费 Num 分钟时间完成。

RUNNINGRESIZING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 大小调整操作已于 Time 开始。它的实例数从 Num 个调整为 Num 个。

ARRESTED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 已于 Time 捕获,原因为:ReasonDesc

RESIZING

WARNING

对 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作已卡住,原因为:ReasonDesc

WAITINGRUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的大小调整操作已由 EntityTime 启动。

注意

使用 Amazon EMR 版本 5.21.0 以及更高版本,您可以覆盖集群配置,并为运行的集群中的每个实例组指定更多配置分类。您可以使用 Amazon EMR 控制台、AWS Command Line Interface (AWS CLI) 或 AWS 开发工具包来实现此操作。有关更多信息,请参阅为正在运行的实例中的实例组提供配置

下表列出了重新配置操作的 Amazon EMR 事件,以及事件指示的状态或状态变更、事件的严重性和事件消息。

状态或状态变更 严重性 消息

RUNNING

INFO

用户在 Time 时为 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 启动了重新配置。请求的配置版本为 Num

RECONFIGURINGRUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置操作已完成。在 Time 时启动了重新配置,并需要 Num 分钟才能完成。当前配置版本为 Num

RUNNINGRECONFIGURING

INFO

Time 时为 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 启动了重新配置。它从版本号 Num 配置为版本号 Num

RESIZING

INFO

Time 时暂时阻止了为 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的配置版本 Num 执行的重新配置操作,因为该实例组处于 State 状态。

RECONFIGURING

INFO

Time 时暂时阻止了为 Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的实例数 Num 执行的大小调整操作,因为该实例组处于 State 状态。

RECONFIGURING

WARNING

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的重新配置操作在 Time 时失败,该操作经过 Num 分钟后失败。失败的配置版本为 Num

RECONFIGURING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 配置将在 Time 时恢复为以前的成功版本号 Num。新配置版本为 Num

RECONFIGURINGRUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 配置在 Time 时成功恢复为以前的成功版本 Num。新配置版本为 Num

RECONFIGURINGARRESTED

CRITICAL

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 无法在 Time 时恢复为以前的成功版本 Num

自动扩展策略事件

状态或状态变更 严重性 消息

PENDING

INFO

Auto Scaling 策略已于 Time 添加到 Amazon EMR 集群 ClusterId (ClusterName) 内的实例组 InstanceGroupID 中。策略正在等待挂载处理。

—或者—

Amazon EMR 集群 ClusterId (ClusterName) 中的实例组 InstanceGroupID 的 Auto Scaling 策略于 Time 更新。策略正在等待挂载处理。

ATTACHED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略于 Time 挂载。

DETACHED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略于 Time 分离。

FAILED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略无法挂载,于 Time 失败。

—或者—

Amazon EMR 集群 ClusterId (ClusterName) 中实例组 InstanceGroupID 的 Auto Scaling 策略无法分离,于 Time 失败。

步骤事件

状态或状态变更 严重性 消息

PENDING

INFO

步骤 StepID (StepName) 已于 Time 添加到 Amazon EMR 集群 ClusterId (ClusterName),正在等待执行。

CANCEL_PENDING

WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 取消,正在等待取消。

RUNNING

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 开始运行。

COMPLETED

INFO

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName) 已于 Time 执行完毕。此步骤于 Time 开始运行,花费 Num 分钟时间完成。

CANCELLED

WARN

Amazon EMR 集群 ClusterId (ClusterName) 中的集群步骤 StepID (StepName) 的取消请求于 Time 成功完成,此步骤现已取消。

FAILED

ERROR

Amazon EMR 集群 ClusterId (ClusterName) 中的步骤 StepID (StepName)Time 失败。

使用 Amazon EMR 控制台查看事件

对于每个集群,您可以在详细信息窗格中查看简单的事件列表,该列表按发生顺序降序列出事件。您还可以按照事件发生顺序的降序查看区域中所有集群的所有事件。

注意

如果您不希望用户查看区域的所有集群事件,请向附加到用户的策略添加一条语句,该语句拒绝对 "Effect": "Deny" 操作的权限 (elasticmapreduce:ViewEventsFromAllClustersInConsole)。

查看区域中所有集群的事件

  1. 打开 https://console.amazonaws.cn/elasticmapreduce/ 中的 Amazon EMR 控制台。

  2. 选择 Events (事件)

查看特定集群的事件

  1. 打开 https://console.amazonaws.cn/elasticmapreduce/ 中的 Amazon EMR 控制台。

  2. 选择 Cluster List (集群列表),选择一个集群,然后选择 View details (查看详细信息)

  3. 在集群详细信息窗格中选择 Events (事件)

    
								在集群详细信息窗格中查看 Amazon EMR 事件。

使用 CloudWatch 为 Amazon EMR 事件创建规则

Amazon EMR 将事件自动发送到 CloudWatch 事件流。您可以根据特定的模式创建匹配事件的规则,以便将事件路由到目标来执行操作,如发送电子邮件通知。针对事件的 JSON 对象匹配模式。有关 Amazon EMR 事件详细信息的更多信息,请参阅 Amazon CloudWatch Events 用户指南中的 Amazon EMR 事件

有关设置 CloudWatch 事件规则的信息,请参阅创建对事件触发的 CloudWatch 规则