Amazon EKS 和 Kubernetes Container Insights 指标 - Amazon CloudWatch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon EKS 和 Kubernetes Container Insights 指标

下表列出了 Container Insights 为 Amazon EKS 和 Kubernetes 收集的指标和维度。这些指标位于 ContainerInsights 命名空间中。有关更多信息,请参阅 指标

如果您在控制台中未看到任何 Container Insights 指标,请确保已完成 Container Insights 的设置。在完全设置 Container Insights 之前,指标不会显示。有关更多信息,请参阅 设置 Container Insights

如果您使用 Amazon EKS 附加组件 1.5.0 版或更高版本或者 CloudWatch 代理 1.300035.0 版,则将为 Linux 和 Windows 节点收集下表中列出的大多数指标。请参阅该表的指标名称列,了解哪些指标并非为 Windows 收集。

在 Container Insights 的原始版本中,这些指标将作为自定义指标收费。借助针对 Amazon EKS 增强了可观测性的 Container Insights,Container Insights 指标按每次观测收费,而不是按存储的指标或摄取的日志收费。有关 CloudWatch 定价的信息,请参阅 Amazon CloudWatch 定价

注意

在 Windows 上,不会为主机进程容器收集 pod_network_rx_bytespod_network_tx_bytes 等网络指标。

指标名称 任何版本的 Container Insights 的维度 适用于针对 Amazon EKS 增强了可观测性的 Container Insights 的其他维度 描述

cluster_failed_node_count

ClusterName

集群中失败的工作线程节点的数目。如果节点遭受任何节点条件的影响,则该节点被视为失败。有关更多信息,请参阅 Kubernetes 文档中的条件

cluster_node_count

ClusterName

集群中工作线程节点的总数。

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

您使用的维度所指定的资源中每个命名空间运行的 pod 的数目。

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

可以分配给此集群中单个节点的 CPU 单元的最大数目。

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

为节点组件保留的 CPU 单元的百分比,例如 kubelet、kube-proxy 和 Docker。

公式:node_cpu_request / node_cpu_limit

注意

node_cpu_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

集群中节点上正在使用的 CPU 单元的数目。

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

集群中节点上正在使用的 CPU 单元的总百分比。

公式:node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

集群中节点上正在使用的文件系统容量的总百分比。

公式:node_filesystem_usage / node_filesystem_capacity

注意

node_filesystem_usagenode_filesystem_capacity 不是直接作为指标报告,而是性能日志事件中的字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

可以分配给此集群中单个节点的最大内存量(以字节为单位)。

node_filesystem_inodes

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。

ClusterName

ClusterName, InstanceId, NodeName

节点上 inode(已使用和未使用)的总数。

node_filesystem_inodes_free

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。

ClusterName

ClusterName, InstanceId, NodeName

节点上未使用 inode 的总数。

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

集群中节点上当前正在使用的内存百分比。

公式:node_memory_request / node_memory_limit

注意

node_memory_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

一个或多个节点当前正在使用的内存百分比。它是节点内存使用量除以节点内存限制的百分比。

公式:node_memory_working_set / node_memory_limit

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

集群中节点的工作集中正在使用的内存量(以字节为单位)。

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

集群中每个节点通过网络传输和接收的每秒总字节数。

公式:node_network_rx_bytes + node_network_tx_bytes

注意

node_network_rx_bytesnode_network_tx_bytes 不是直接作为指标报告,而是性能日志事件中的字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

集群中每个节点的正在运行的容器数。

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

集群中每个节点上运行的 pod 的数量。

node_status_allocatable_pods

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

根据节点的可分配资源可以分配给节点的容器组(pod)数量,这定义为考虑系统进程守护程序预留和硬驱逐阈值后的节点容量余数。

node_status_capacity_pods

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

根据节点容量可以分配给节点的容器组(pod)数量。

node_status_condition_ready

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

表示 Amazon EC2 节点的节点状态条件 Ready 是否为 true。

node_status_condition_memory_pressure

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

表示节点状态条件是 MemoryPressure 是否为 true。

node_status_condition_pid_pressure

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

表示节点状态条件是 PIDPressure 是否为 true。

node_status_condition_disk_pressure

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

表示节点状态条件是 OutOfDisk 是否为 true。

node_status_condition_unknown

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

表示是否有任何节点状态条件为“未知”。

node_interface_network_rx_dropped

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

节点上的网络接口接收并随后丢弃的数据包数量。

node_interface_network_tx_dropped

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, InstanceId, NodeName

本应传输但被节点上的网络接口丢弃的数据包数量。

node_diskio_io_service_bytes_total

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。

ClusterName

ClusterName, InstanceId, NodeName

节点上所有 I/O 操作传输的总字节数。

node_diskio_io_serviced_total

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。

ClusterName

ClusterName, InstanceId, NodeName

节点上 I/O 操作的总数。

pod_cpu_reserved_capacity

PodName、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

集群中每个 pod 预留的 CPU 容量。

公式:pod_cpu_request / node_cpu_limit

注意

pod_cpu_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_cpu_utilization

PodName、Namespace、ClusterName

命名空间 ClusterName

Service、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

pod 所使用的 CPU 单元的百分比。

公式:pod_cpu_usage_total / node_cpu_limit

注意

pod_cpu_usage_total 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_cpu_utilization_over_pod_limit

PodName、Namespace、ClusterName

命名空间 ClusterName

Service、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

相对于容器组(pod)限制的容器组(pod)所使用的 CPU 单元的百分比。

公式:pod_cpu_usage_total / pod_cpu_limit

注意

pod_cpu_usage_totalpod_cpu_limit 不是直接作为指标报告,而是性能日志事件中的字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_memory_reserved_capacity

PodName、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

为 pod 预留的内存的百分比。

公式:pod_memory_request / node_memory_limit

注意

pod_memory_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_memory_utilization

PodName、Namespace、ClusterName

命名空间 ClusterName

Service、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

一个或多个 pod 当前正在使用的内存百分比。

公式:pod_memory_working_set / node_memory_limit

注意

pod_memory_working_set 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_memory_utilization_over_pod_limit

PodName、Namespace、ClusterName

命名空间 ClusterName

Service、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

相对于容器组(pod)限制的容器组(pod)所使用的内存百分比。如果容器组(pod)中的任何容器没有定义内存限制,则不会显示该指标。

公式:pod_memory_working_set / pod_memory_limit

注意

pod_memory_working_set 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_network_rx_bytes

PodName、Namespace、ClusterName

命名空间 ClusterName

Service、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

pod 通过网络每秒接收的字节数。

公式:sum(pod_interface_network_rx_bytes)

注意

pod_interface_network_rx_bytes 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_network_tx_bytes

PodName、Namespace、ClusterName

命名空间 ClusterName

Service、Namespace、ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

pod 通过网络每秒传输的字节数。

公式:sum(pod_interface_network_tx_bytes)

注意

pod_interface_network_tx_bytes 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_cpu_request

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

容器组(pod)的 CPU 请求。

公式:sum(container_cpu_request)

注意

pod_cpu_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_memory_request

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

容器组(pod)的内存请求。

公式:sum(container_memory_request)

注意

pod_memory_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_cpu_limit

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

为容器组(pod)中的容器定义的 CPU 限制。如果容器组(pod)中的任何容器没有定义 CPU 限制,则不会显示此指标。

公式:sum(container_cpu_limit)

注意

pod_cpu_limit 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_memory_limit

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

为容器组(pod)中的容器定义的内存限制。如果容器组(pod)中的任何容器没有定义内存限制,则不会显示该指标。

公式:sum(container_memory_limit)

注意

pod_cpu_limit 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_status_failed

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示容器组(pod)中的所有容器都已终止,并且至少有一个容器以非零状态终止或已被系统终止。

pod_status_ready

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示容器组(pod)中的所有容器都已准备就绪,且已达到 ContainerReady 的条件。

pod_status_running

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示容器组(pod)中的所有容器都在运行。

pod_status_scheduled

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示容器组(pod)已被调度到某个节点。

pod_status_unknown

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示无法获取容器组(pod)的状态。

pod_status_pending

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示集群已接受容器组(pod),但其中一个或多个容器尚未准备就绪。

pod_status_succeeded

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示容器组(pod)中的所有容器都已成功终止并且不会重启。

pod_number_of_containers

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)规范中定义的容器数量。

pod_number_of_running_containers

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中当前处于 Running 状态的容器数量。

pod_container_status_terminated

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中处于 Terminated 状态的容器数量。

pod_container_status_running

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中处于 Running 状态的容器数量。

pod_container_status_waiting

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中处于 Waiting 状态的容器数量。

pod_container_status_waiting_reason_crash_loop_back_off

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中因 CrashLoopBackOff 错误而处于待处理状态的容器数量,该错误会导致容器反复启动失败。

pod_container_status_waiting_reason_create_container_config_error

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中因 CreateContainerConfigError 而处于待处理状态的容器数量。这是因为创建容器配置时出错。

pod_container_status_waiting_reason_create_container_error

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中由于创建容器时出错而因 CreateContainerError 处于待处理状态的容器数量。

pod_container_status_waiting_reason_image_pull_error

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中因 ErrImagePullImagePullBackOffInvalidImageName 而处于待处理状态的容器数量。这些情况是由于拉取容器映像时出错造成的。

pod_container_status_waiting_reason_oom_killer

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中因内存不足(OOM 终止)而处于 Terminated 状态

的容器数量。

pod_container_status_waiting_reason_start_error

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

报告容器组(pod)中由于启动容器时出错而因 StartError 处于待处理状态的容器数量。

pod_interface_network_rx_dropped

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

容器组(pod)的网络接口接收并随后丢弃的数据包数量。

pod_interface_network_tx_dropped

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

本应传输但为容器组(pod)丢弃的数据包数量。

container_cpu_utilization

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器所使用的 CPU 单元的百分比。

公式:container_cpu_usage_total / node_cpu_limit

注意

container_cpu_utilization 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

container_cpu_utilization_over_container_limit

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

相对于容器限制,容器所使用的 CPU 单元的百分比。如果容器没有定义 CPU 限制,则不会显示此指标。

公式:container_cpu_usage_total / container_cpu_limit

注意

container_cpu_utilization_over_container_limit 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

container_memory_utilization

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器所使用的内存单元的百分比。

公式:container_memory_working_set / node_memory_limit

注意

container_memory_utilization 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

container_memory_utilization_over_container_limit

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

相对于容器限制,容器所使用的内存单元的百分比。如果容器没有定义内存限制,则不会显示此指标。

公式:container_memory_working_set / container_memory_limit

注意

container_memory_utilization_over_container_limit 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

container_memory_failures_total

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器遇到的内存分配失败的次数。

pod_number_of_container_restarts

PodName、NamespaceClusterName

一个 pod 中容器重新启动的总次数。

service_number_of_running_pods

Service、NamespaceClusterName

ClusterName

运行集群中的服务的 pod 的数量。

replicas_desired

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

工作负载规范中定义的工作负载所需的容器组(pod)数量。

replicas_ready

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

已达到就绪状态的工作负载的容器组(pod)数量。

status_replicas_available

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

工作负载可用的容器组(pod)数量。当容器组(pod)已就绪工作负载规范中定义的 minReadySeconds 时,容器组(pod)才可用。

status_replicas_unavailable

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

PodName, Namespace, ClusterName

工作负载不可用的容器组(pod)数量。当容器组(pod)已就绪工作负载规范中定义的 minReadySeconds 时,容器组(pod)才可用。如果容器组(pod)不符合此标准,则它们不可用。

apiserver_storage_objects

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, resource

上次检查时存储在 etcd 中的对象数量。

apiserver_request_total

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, code, verb

向 Kubernetes API 服务器发出的 API 请求总数。

apiserver_request_duration_seconds

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, verb

向 Kubernetes API 服务器发出的 API 请求的响应延迟。

apiserver_admission_controller_admission_duration_seconds

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, operation

准入控制器延迟(以秒为单位)。准入控制器是拦截向 Kubernetes API 服务器发出的请求的代码。

rest_client_request_duration_seconds

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, operation

客户端在调用 Kubernetes API 服务器时遇到的响应延迟。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。

rest_client_requests_total

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, code, method

客户端向 Kubernetes API 服务器发出的 API 请求总数。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。

etcd_request_duration_seconds

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, operation

对 Etcd 的 API 调用的响应延迟。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。

apiserver_storage_size_bytes

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, endpoint

物理分配的存储数据库文件的大小(以字节为单位)。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。

apiserver_longrunning_requests

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, resource

向 Kubernetes API 服务器发出的长时间运行的活跃请求数。

apiserver_current_inflight_requests

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, request_kind

Kubernetes API 服务器正在处理的请求数。

apiserver_admission_webhook_admission_duration_seconds

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, name

准入 Webhook 延迟(以秒为单位)。准入 Webhook 是 HTTP 回调,用于接收准入请求并对其进行一些处理。

apiserver_admission_step_admission_duration_seconds

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, operation

准入子步骤延迟(以秒为单位)。

apiserver_requested_deprecated_apis

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, group

向 Kubernetes API 服务器上已弃用的 API 发出的请求数。

apiserver_request_total_5XX

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, code, verb

向 Kubernetes API 服务器发出的请求数,这些请求以 5XX HTTP 响应代码为响应。

apiserver_storage_list_duration_seconds

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, resource

列出 Etcd 中的对象的响应延迟。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。

apiserver_current_inqueue_requests

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, request_kind

Kubernetes API 服务器排队的请求数。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。

apiserver_flowcontrol_rejected_requests_total

此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights

ClusterName

ClusterName, reason

API 优先级和公平性子系统拒绝的请求数。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。

NVIDIA GPU 指标

从 CloudWatch 代理版本 1.300034.0 开始,针对 Amazon EKS 增强了可观测性的 Container Insights 默认从 EKS 工作负载收集 NVIDIA GPU 指标。必须使用 CloudWatch Observability EKS 附加组件版本 v1.3.0-eksbuild.1 或更高版本安装 CloudWatch 代理。有关更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。本节的表中列出了这些会被收集的 NVIDIA GPU 指标。

要让 Container Insights 收集 NVIDIA GPU 指标,必须满足以下先决条件:

  • 必须将针对 Amazon EKS 增强了可观测性的 Container Insights 与 Amazon CloudWatch Observability EKS 附加组件版本 v1.3.0-eksbuild.1 或更高版本结合使用。

  • 集群中必须安装适用于 Kubernetes 的 NVIDIA 设备插件

  • 集群的节点上必须安装 NVIDIA 容器工具包。例如,使用必要的组件构建 Amazon EKS 优化版加速型 AMI。

您可以将起始 CloudWatch 代理配置文件中的 accelerated_compute_metrics 选项设置为 false,从而选择不收集 NVIDIA GPU 指标。有关更多信息和选择不收集配置的示例,请参阅 (可选)其他配置

指标名称 Dimensions 描述

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

分配给容器的 GPU 上的帧缓冲区总大小(以字节为单位)。

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

分配给容器的 GPU 上使用的帧缓冲区字节数。

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

分配给容器的 GPU 已使用的帧缓冲区百分比。

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

分配给容器的 GPU 的功耗(以瓦特为单位)。

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

分配给容器的 GPU 的温度(以摄氏度为单位)。

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

分配给容器的 GPU 的利用率百分比。

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

分配给节点的 GPU 上的帧缓冲区总大小(以字节为单位)。

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

分配给节点的 GPU 上使用的帧缓冲区字节数。

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

分配给节点的 GPU 上使用的帧缓冲区百分比。

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

分配给节点的 GPU 的功耗(以瓦特为单位)。

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

分配给节点的 GPU 的温度(以摄氏度为单位)。

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

分配给节点的 GPU 的利用率百分比。

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

分配给 Pod 的 GPU 上的帧缓冲区总大小(以字节为单位)。

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

分配给 Pod 的 GPU 上使用的帧缓冲区字节数。

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

分配给 Pod 的 GPU 上使用的帧缓冲区百分比。

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

分配给 Pod 的 GPU 的功耗(以瓦特为单位)。

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

分配给 Pod 的 GPU 的温度(以摄氏度为单位)。

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

分配给 Pod 的 GPU 的利用率百分比。

Amazon Trainium 和 Amazon Inferentia 的 Amazon Neuron 指标

从 CloudWatch 代理版本 1.300036.0 开始,针对 Amazon EKS 增强了可观测性的 Container Insights 默认从 Amazon Trainium 和 Amazon Inferentia 加速器收集加速计算指标。必须使用 CloudWatch Observability EKS 附加组件版本 v1.5.0-eksbuild.1 或更高版本安装 CloudWatch 代理。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。有关 Amazon Trainium 的更多信息,请参阅 Amazon Trainium。有关 Amazon Inferentia 的更多信息,请参阅 Amazon Inferentia

要让 Container Insights 收集 Amazon Neuron 指标,必须满足以下先决条件:

  • 必须将针对 Amazon EKS 增强了可观测性的 Container Insights 与 Amazon CloudWatch Observability EKS 附加组件版本 v1.5.0-eksbuild.1 或更高版本结合使用。

  • Neuron 驱动程序必须安装在集群的节点上。

  • Neuron 设备插件必须安装在集群上。例如,使用必要的组件构建 Amazon EKS 优化版加速型 AMI。

本节的表中列出了将收集的指标。这些指标是为 Amazon Trainium、Amazon Inferentia 和 Amazon Inferentia2 收集的。

CloudWatch 代理从 Neuron Monitor 收集这些指标,并进行必要的 Kubernetes 资源关联,以在容器组(pod)和容器级别提供指标

指标名称 Dimensions 描述

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

分配给容器的 NeuronCore 在捕获期内的 NeuronCore 利用率。

单位:百分比

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

分配给容器的 NeuronCore 在训练期间用于常量的设备内存量(或推理期间的权重)。

单位:字节

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

分配给容器的 NeuronCore 用于模型可执行代码的设备内存量。

单位:字节

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

分配给容器的 NeuronCore 用于模型共享暂存器的设备内存量。此内存区域保留用于模型。

单位:字节

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

分配给容器的 NeuronCore 用于 Neuron 运行时的设备内存量。

单位:字节

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

分配给容器的 NeuronCore 用于张量的设备内存量。

单位:字节

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

分配给容器的 NeuronCore 使用的内存总量。

单位:字节

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

节点上 Neuron 设备的片上 SRAM 和设备内存的已校正和未校正 ECC 事件数。

单位:计数

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

分配给容器组(pod)的 NeuronCore 在捕获期内的 NeuronCore 利用率。

单位:百分比

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

分配给容器组(pod)的 NeuronCore 在训练期间用于常量的设备内存量(或推理期间的权重)。

单位:字节

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

分配给容器组(pod)的 NeuronCore 用于模型可执行代码的设备内存量。

单位:字节

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

分配给容器组(pod)的 NeuronCore 用于模型共享暂存器的设备内存量。此内存区域保留用于模型。

单位:字节

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

分配给容器组(pod)的 NeuronCore 用于 Neuron 运行时的设备内存量。

单位:字节

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

分配给容器组(pod)的 NeuronCore 用于张量的设备内存量。

单位:字节

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

分配给容器组(pod)的 NeuronCore 使用的内存总量。

单位:字节

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

分配给容器组(pod)的 Neuron 设备的片上 SRAM 和设备内存的已校正和未校正 ECC 事件数。

单位:字节

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

分配给节点的 NeuronCore 在捕获期内的 NeuronCore 利用率。

单位:百分比

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

分配给节点的 NeuronCore 在训练期间用于常量的设备内存量(或推理期间的权重)。

单位:字节

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

分配给节点的 NeuronCore 用于模型可执行代码的设备内存量。

单位:字节

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

分配给节点的 NeuronCore 用于模型共享暂存器的设备内存量。这保留用于模型的内存区域。

单位:字节

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

分配给节点的 NeuronCore 用于 Neuron 运行时的设备内存量。

单位:字节

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

分配给节点的 NeuronCore 用于张量的设备内存量。

单位:字节

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

分配给节点的 NeuronCore 使用的内存总量。

单位:字节

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

节点上执行错误的总数。这是由 CloudWatch 代理通过汇总以下类型的错误来计算的:genericnumericaltransientmodelruntimehardware

单位:计数

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

节点上 Neuron 设备内存使用总量(以字节为单位)。

单位:字节

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

Neuron 运行时测量的节点上执行的延迟(以秒为单位)。

单位:秒

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

节点上 Neuron 设备的片上 SRAM 和设备内存的已校正和未校正 ECC 事件数。

单位:计数

Amazon Elastic Fabric Adapter(EFA)指标

从 CloudWatch 代理版本 1.300037.0 开始,针对 Amazon EKS 增强了可观测性的 Container Insights 从 Linux 实例上的 Amazon EKS 集群收集 Amazon Elastic Fabric Adapter(EFA)指标。必须使用 CloudWatch Observability EKS 附加组件版本 v1.5.2-eksbuild.1 或更高版本安装 CloudWatch 代理。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。有关 Amazon Elastic Fabric Adapter(EFA)的更多信息,请参阅 Elastic Fabric Adapter

要让 Container Insights 收集 Amazon Elastic Fabric Adapter 指标,必须满足以下先决条件:

  • 必须将针对 Amazon EKS 增强了可观测性的 Container Insights 与 Amazon CloudWatch Observability EKS 附加组件版本 v1.5.2-eksbuild.1 或更高版本结合使用。

  • EFA 设备插件必须安装在集群上。有关更多信息,请参阅 GitHub 上的 aws-efa-k8s-device-plugin

下表中列出了收集的指标。

指标名称 Dimensions 描述

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

分配给容器的 EFA 设备每秒接收的字节数。

单位:字节/秒

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

分配给容器的 EFA 设备每秒传输的字节数。

单位:字节/秒

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

分配给容器的 EFA 设备接收然后丢弃的数据包数量。

单位:计数/秒

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

分配给容器的 EFA 设备使用远程直接内存访问读取操作每秒接收的字节数。

单位:字节/秒

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

分配给容器的 EFA 设备使用远程直接内存访问读取操作每秒传输的字节数。

单位:字节/秒

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

分配给容器的 EFA 设备在远程直接内存访问写入操作期间每秒接收的字节数。

单位:字节/秒

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

分配给容器组(pod)的 EFA 设备每秒接收的字节数。

单位:字节/秒

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

分配给容器组(pod)的 EFA 设备每秒传输的字节数。

单位:字节/秒

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

分配给容器组(pod)的 EFA 设备接收然后丢弃的数据包数量。

单位:计数/秒

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

分配给容器组(pod)的 EFA 设备使用远程直接内存访问读取操作每秒接收的字节数。

单位:字节/秒

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

分配给容器组(pod)的 EFA 设备使用远程直接内存访问读取操作每秒传输的字节数。

单位:字节/秒

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

分配给容器组(pod)的 EFA 设备在远程直接内存访问写入操作期间每秒接收的字节数。

单位:字节/秒

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

分配给节点的 EFA 设备每秒接收的字节数。

单位:字节/秒

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

分配给节点的 EFA 设备每秒传输的字节数。

单位:字节/秒

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

分配给节点的 EFA 设备接收然后丢弃的数据包数量。

单位:计数/秒

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

分配给节点的 EFA 设备使用远程直接内存访问读取操作每秒接收的字节数。

单位:字节/秒

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

分配给容器组(pod)的 EFA 设备使用远程直接内存访问读取操作每秒传输的字节数。

单位:字节/秒

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

分配给节点的 EFA 设备在远程直接内存访问写入操作期间每秒接收的字节数。

单位:字节/秒

Amazon SageMaker HyperPod 指标

从 CloudWatch Observability EKS 附加组件的 v2.0.1-eksbuild.1 版本开始,具有 Amazon EKS 增强可观测性的 Container Insights 会自动从 Amazon EKS 集群收集 Amazon SageMaker HyperPod 指标。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。有关 Amazon SageMaker HyperPod 的更多信息,请参阅 Amazon SageMaker HyperPod

下表中列出了收集的指标。

指标名称 Dimensions 描述

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

表示节点是否被 Unschedulable HyperPod 标记为 Amazon SageMaker。这意味着该节点正在运行深度运行状况检查,无法用于运行的工作负载。

单位:计数

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

表示节点是否被 Schedulable HyperPod 标记为 Amazon SageMaker。这意味着该节点已通过基本运行状况检查或深度运行状况检查,可用于运行的工作负载。

单位:计数

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

表示节点是否被 HyperPod 标记为 UnschedulablePendingReplacement。这意味着该节点未通过深度运行状况检查或运行状况监测代理检查,需要替换。

如果启用了自动节点恢复,该节点将自动被 Amazon SageMaker HyperPod 替换。

单位:计数

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

表示节点是否被 UnschedulablePendingReboot HyperPod 标记为 Amazon SageMaker。这意味着该节点正在运行深度运行状况检查,需要重启。

如果启用了自动节点恢复,Amazon SageMaker HyperPod 将自动重启该节点。

单位:计数