Amazon CloudWatch
用户指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。点 击 Getting Started with Amazon AWS to see specific differences applicable to the China (Beijing) Region.

Amazon EMR 指标和维度

Amazon EMR (Amazon EMR) 将指标发送到 CloudWatch。所有 Amazon EMR 任务流程会每隔 5 分钟自动发送指标。指标会存档 15 个月。15 个月后,数据会被丢弃。有关更多信息,请参阅 Amazon EMR 开发人员指南 中的使用 Amazon CloudWatch 监控指标

Amazon EMR 指标

Amazon EMR 会将下列指标发送到 Amazon CloudWatch。

AWS/ElasticMapReduce 命名空间包括以下指标。

注意

Amazon EMR 会从集群提取指标。如果无法连接到集群,则在集群再次变成可用状态之前将不会报告任何指标。

Hadoop 1 指标如下:

指标 说明
群集状态

处于空闲状态

指示集群不再执行任务,但仍处于活动状态并会产生费用。如果没有任何任务和作业处于运行状态,则此指标设置为 1;否则设置为 0。系统每隔五分钟检查一次该值,值为 1 仅表示集群在检查时处于空闲状态,并不表示它整个五分钟内都处于空闲状态。为避免误报,当多次连续 5 分钟检查获得的值均为 1 时,您应提出警报。例如,当该值在三十分钟或更长时间内都为 1 时,您应提出警报。

使用案例:监控集群性能

单位:布尔值

正在运行的作业

群集中当前处于运行状态的任务数量。

使用案例:监控集群的运行状况

单位:计数

作业失败

群集中失败的任务数量。

使用案例:监控集群的运行状况

单位:计数

Map/Reduce

MapTasksRunning

每个作业处于运行中的映射任务的数量。如果您安装了计划程序并且有多个作业在运行,那么会生成多个图表。

使用案例:监控集群的进度

单位:计数

MapTasksRemaining

每个作业的剩余映射任务的数量。如果您安装了计划程序并且有多个作业在运行,那么会生成多个图表。剩余映射任务是指未处于任何以下状态的任务:运行中、已终止或已完成。

使用案例:监控集群的进度

单位:计数

打开的映射槽位

未使用的映射任务容量。该指标将计算为给定群集的最大映射任务数与该群集中当前运行的映射任务总数之差。

使用案例:分析集群性能

单位:计数

每个槽位剩余的映射任务

剩余映射任务的总数与群集中可用映射插槽总数之比。

使用案例:分析集群性能

单位:比率

ReduceTasksRunning

每个作业处于运行中的缩减任务的数量。如果您安装了计划程序并且有多个作业在运行,那么会生成多个图表。

使用案例:监控集群的进度

单位:计数

ReduceTasksRemaining

每个作业的剩余缩减任务的数量。如果您安装了计划程序并且有多个作业在运行,那么会生成多个图表。

使用案例:监控集群的进度

单位:计数

打开的减少槽位

未使用的缩减任务容量。该指标将计算为给定群集的最大缩减任务容量与该群集中当前运行的缩减任务数之差。

使用案例:分析集群性能

单位:计数

节点状态

正在运行的核心节点

处于运行状态的核心节点的数量。仅当对应的实例组存在时,才会报告此指标的数据点。

使用案例:监控集群的运行状况

单位:计数

待处理的核心节点

等待分配的核心节点的数量。请求的所有核心节点可能不会立即可用;此指标报告挂起的请求。仅当对应的实例组存在时,才会报告此指标的数据点。

使用案例:监控集群的运行状况

单位:计数

实时数据节点

从 Hadoop 接收任务的数据节点的百分率。

使用案例:监控集群的运行状况

单位:百分比

正在运行的任务节点

处于运行状态的任务节点的数量。仅当对应的实例组存在时,才会报告此指标的数据点。

使用案例:监控集群的运行状况

单位:计数

待处理的任务节点

等待分配的核心节点的数量。请求的所有任务节点可能不会立即可用;此指标报告挂起的请求。仅当对应的实例组存在时,才会报告此指标的数据点。

使用案例:监控集群的运行状况

单位:计数

实时任务跟踪程序

处于运行状态的任务跟踪程序的百分率。

使用案例:监控集群的运行状况

单位:百分比

IO

写入 S3 的字节数

写入 Amazon S3 的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

从 S3 读取的字节数

从 Amazon S3 读取的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

HDFS 利用率

当前使用的 HDFS 存储的百分率。

使用案例:分析集群性能

单位:百分比

从 HDFS 读取的字节数

从 HDFS 读取的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

写入 HDFS 的字节数

写入 HDFS 的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

缺少块

HDFS 在其中没有副本的数据块的数量。这些数据块可能已损坏。

使用案例:监控集群的运行状况

单位:计数

总负载

群集中的所有 DataNode 报告的读取器和写入器的当前总数。

使用案例:诊断高 I/O 可能导致作业执行性能低的程度。运行 DataNode 守护程序的工作线程节点还必须执行映射并减少任务。随着时间的推移,持续的高 TotalLoad 值可能指示高 I/O 可能是导致性能低的因素。此值的偶尔峰值属于常见情况,通常不指示问题。

单位:计数

HBase

BackupFailed

最后一次备份是否失败。默认设置为 0,如果上一次备份尝试失败,则更新为 1。仅为 HBase 集群报告此指标。

使用案例:监控 HBase 备份

单位:计数

MostRecentBackupDuration

完成上一次备份所需的时长。无论最后完成的备份成功或失败,都会设置此指标。进行备份的同时,此指标返回备份开始之后的分钟数。仅为 HBase 集群报告此指标。

使用案例:监控 HBase 备份

单位:分钟

TimeSinceLastSuccessfulBackup

在您的群集上,最后一次成功 HBase 备份开始之后经过的分钟数。仅为 HBase 集群报告此指标。

使用案例:监控 HBase 备份

单位:分钟

以下指标可用于 Hadoop 2 AMI:

指标 说明
群集状态

处于空闲状态

指示集群不再执行任务,但仍处于活动状态并会产生费用。如果没有任何任务和作业处于运行状态,则此指标设置为 1;否则设置为 0。系统每隔五分钟检查一次该值,值为 1 仅表示集群在检查时处于空闲状态,并不表示它整个五分钟内都处于空闲状态。为避免误报,当多次连续 5 分钟检查获得的值均为 1 时,您应提出警报。例如,当该值在三十分钟或更长时间内都为 1 时,您应提出警报。

使用案例:监控集群性能

单位:布尔值

ContainerAllocated

ResourceManager 分配的资源容器数。

使用案例:监控集群的进度

单位:计数

ContainerReserved

预留的容器数。

使用案例:监控集群的进度

单位:计数

ContainerPending

队列中尚未分配的容器数。

使用案例:监控集群的进度

单位:计数

ContainerPendingRatio

待处理的容器与已分配的容器的比值 (ContainerPendingRatio = ContainerPending/ContainerAllocated)。如果 ContainerAllocated = 0,则 ContainerPendingRatio = ContainerPending。值 ContainerPendingRatio 表示数字,而不是百分比。此值对基于容器分配行为扩展群集资源很有用。

AppsCompleted

提交给 YARN 并且已完成的应用程序数。

使用案例:监控集群的进度

单位:计数

AppsFailed

提交给 YARN 并且未能完成的应用程序数。

使用案例:监控集群的进度,监控集群运行状况

单位:计数

AppsKilled

提交给 YARN 并且已终止的应用程序数。

使用案例:监控集群的进度,监控集群运行状况

单位:计数

AppsPending

提交给 YARN 并且处于挂起状态的应用程序数。

使用案例:监控集群的进度

单位:计数

AppsRunning

提交给 YARN 并且正在运行的应用程序数。

使用案例:监控集群的进度

单位:计数

AppsSubmitted

提交给 YARN 的应用程序数。

使用案例:监控集群的进度

单位:计数

节点状态

正在运行的核心节点

处于运行状态的核心节点的数量。仅当对应的实例组存在时,才会报告此指标的数据点。

使用案例:监控集群的运行状况

单位:计数

待处理的核心节点

等待分配的核心节点的数量。请求的所有核心节点可能不会立即可用;此指标报告挂起的请求。仅当对应的实例组存在时,才会报告此指标的数据点。

使用案例:监控集群的运行状况

单位:计数

实时数据节点

从 Hadoop 接收任务的数据节点的百分率。

使用案例:监控集群的运行状况

单位:百分比

MRTotalNodes

当前可供 MapReduce 作业使用的节点数。

使用案例:监控集群的进度

单位:计数

MRActiveNodes

当前正在运行 MapReduce 任务或作业的节点数。

使用案例:监控集群的进度

单位:计数

MRLostNodes

分配给 MapReduce 并且已标记为 LOST 状态的节点数。

使用案例:监控集群运行状况,监控集群的进度

单位:计数

MRUnhealthyNodes

当前可供 MapReduce 作业使用的标记为 UNHEALTHY 状态的节点数。

使用案例:监控集群的进度

单位:计数

MRDecommissionedNodes

分配给 MapReduce 应用程序并且已标记为 DECOMMISSIONED 状态的节点数。

使用案例:监控集群运行状况,监控集群的进度

单位:计数

MRRebootedNodes

可供 MapReduce 使用的已重新启动并标记为 REBOOTED 状态的节点数。

使用案例:监控集群运行状况,监控集群的进度

单位:计数

IO

写入 S3 的字节数

写入 Amazon S3 的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

从 S3 读取的字节数

从 Amazon S3 读取的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

HDFS 利用率

当前使用的 HDFS 存储的百分率。

使用案例:分析集群性能

单位:百分比

从 HDFS 读取的字节数

从 HDFS 读取的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

写入 HDFS 的字节数

写入 HDFS 的字节数。

使用案例:分析集群性能,监控集群的进度

单位:字节

缺少块

HDFS 在其中没有副本的数据块的数量。这些数据块可能已损坏。

使用案例:监控集群的运行状况

单位:计数

CorruptBlocks

HDFS 报告的受损数据块的数量。

使用案例:监控集群的运行状况

单位:计数

总负载

并发数据传输的总数。

使用案例:监控集群的运行状况

单位:计数

MemoryTotalMB

群集中的总内存量。

使用案例:监控集群的进度

单位:字节

MemoryReservedMB

预留内存量。

使用案例:监控集群的进度

单位:字节

MemoryAvailableMB

可供分配的内存量。

使用案例:监控集群的进度

单位:字节

YARNMemoryAvailablePercentage

可用于 YARN 的剩余内存的百分比 (YARNMemoryAvailablePercentage = MemoryAvailableMB / MemoryTotalMB)。此值对基于 YARN 内存使用量扩展群集资源很有用。

MemoryAllocatedMB

分配给群集的内存量。

使用案例:监控集群的进度

单位:字节

PendingDeletionBlocks

标记为进行删除的数据块数。

使用案例:监控集群的进度,监控集群运行状况

单位:计数

UnderReplicatedBlocks

需要复制一次或多次的数据块数。

使用案例:监控集群的进度,监控集群运行状况

单位:计数

DfsPendingReplicationBlocks

数据块复制状态:所复制的数据块、复制请求的存在时间以及不成功的复制请求。

使用案例:监控集群的进度,监控集群运行状况

单位:计数

CapacityRemainingGB

剩余 HDFS 磁盘容量。

使用案例:监控集群的进度,监控集群运行状况

单位:字节

HBase

HbaseBackupFailed

最后一次备份是否失败。默认设置为 0,如果上一次备份尝试失败,则更新为 1。仅为 HBase 集群报告此指标。

使用案例:监控 HBase 备份

单位:计数

MostRecentBackupDuration

完成上一次备份所需的时长。无论最后完成的备份成功或失败,都会设置此指标。进行备份的同时,此指标返回备份开始之后的分钟数。仅为 HBase 集群报告此指标。

使用案例:监控 HBase 备份

单位:分钟

TimeSinceLastSuccessfulBackup

在您的群集上,最后一次成功 HBase 备份开始之后经过的分钟数。仅为 HBase 集群报告此指标。

使用案例:监控 HBase 备份

单位:分钟

Amazon EMR 维度

下列维度可用于 Amazon EMR。

维度 描述
任务流程 ID 与 集群 ID 相同,它是群集的唯一标识符 (以 j-XXXXXXXXXXXXX 形式表示)。您可以通过在 Amazon EMR 控制台中单击 集群 来找到该值。
JobId 集群中作业的标识符。可以使用此标识符从集群返回的指标中筛选那些应用于集群中单个作业的指标。JobId 的形式为 job_XXXXXXXXXXXX_XXXX。