Amazon EKS 和 Kubernetes Container Insights 指标 - Amazon CloudWatch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon EKS 和 Kubernetes Container Insights 指标

下表列出了 Container Insights 为 Amazon EKS 和 Kubernetes 收集的指标和维度。这些指标位于 ContainerInsights 命名空间中。有关更多信息,请参阅 Metrics

如果您在控制台中未看到任何 Container Insights 指标,请确保已完成 Container Insights 的设置。在完全设置 Container Insights 之前,指标不会显示。有关更多信息,请参阅 设置 Container Insights

指标名称 Dimensions 描述

cluster_failed_node_count

ClusterName

集群中失败的工作线程节点的数目。如果节点遭受任何节点条件的影响,则该节点被视为失败。有关更多信息,请参阅 Kubernetes 文档中的条件

cluster_node_count

ClusterName

集群中工作线程节点的总数。

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

您使用的维度所指定的资源中每个命名空间运行的 pod 的数目。

node_cpu_limit

ClusterName

可以分配给此集群中单个节点的 CPU 单元的最大数目。

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

为节点组件保留的 CPU 单元的百分比,例如 kubelet、kube-proxy 和 Docker。

公式:node_cpu_request / node_cpu_limit

注意

node_cpu_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_cpu_usage_total

ClusterName

集群中节点上正在使用的 CPU 单元的数目。

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

集群中节点上正在使用的 CPU 单元的总百分比。

公式:node_cpu_usage_total / node_cpu_limit

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

节点上可用 GPU 的总数。

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

节点上正在运行的容器组 (pod) 正在使用的 GPU 数量。

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

节点上当前预留的 GPU 百分比。公式是 node_gpu_request / node_gpu_limit

注意

node_gpu_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

集群中节点上正在使用的文件系统容量的总百分比。

公式:node_filesystem_usage / node_filesystem_capacity

注意

node_filesystem_usagenode_filesystem_capacity 不是直接作为指标报告,而是性能日志事件中的字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_memory_limit

ClusterName

可以分配给此集群中单个节点的最大内存量(以字节为单位)。

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

集群中节点上当前正在使用的内存百分比。

公式:node_memory_request / node_memory_limit

注意

node_memory_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

一个或多个节点当前正在使用的内存百分比。它是节点内存使用量除以节点内存限制的百分比。

公式:node_memory_working_set / node_memory_limit

node_memory_working_set

ClusterName

集群中节点的工作集中正在使用的内存量(以字节为单位)。

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

集群中每个节点通过网络传输和接收的每秒总字节数。

公式:node_network_rx_bytes + node_network_tx_bytes

注意

node_network_rx_bytesnode_network_tx_bytes 不是直接作为指标报告,而是性能日志事件中的字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

集群中每个节点的正在运行的容器数。

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

集群中每个节点上运行的 pod 的数量。

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

集群中每个 pod 预留的 CPU 容量。

公式:pod_cpu_request / node_cpu_limit

注意

pod_cpu_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

pod 所使用的 CPU 单元的百分比。

公式:pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

相对于容器组(pod)限制的容器组(pod)所使用的 CPU 单元的百分比。

公式:pod_cpu_usage_total / pod_cpu_limit

pod_gpu_request

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

容器组 (pod) 的 CPU 请求。此值必须始终等于 pod_gpu_limit

pod_gpu_limit

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

可以分配给节点中容器组 (pod) 的 GPU 的最大数量。

pod_gpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

在 Pod 上分配的 GPU 数量。

pod_gpu_reserved_capacity

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

当前为容器组 (pod) 预留的 GPU 百分比。公式是 pod_gpu_request / node_gpu_reserved_capacity。

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

为 pod 预留的内存的百分比。

公式:pod_memory_request / node_memory_limit

注意

pod_memory_request 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

一个或多个 pod 当前正在使用的内存百分比。

公式:pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

相对于容器组(pod)限制的容器组(pod)所使用的内存百分比。如果容器组(pod)中的任何容器没有定义内存限制,则不会显示该指标。

公式:pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

pod 通过网络每秒接收的字节数。

公式:sum(pod_interface_network_rx_bytes)

注意

pod_interface_network_rx_bytes 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

pod 通过网络每秒传输的字节数。

公式:sum(pod_interface_network_tx_bytes)

注意

pod_interface_network_tx_bytes 不是直接作为指标报告,而是性能日志事件中的一个字段。有关更多信息,请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段

pod_number_of_container_restarts

PodName, Namespace, ClusterName

一个 pod 中容器重新启动的总次数。

service_number_of_running_pods

Service, Namespace, ClusterName

ClusterName

运行集群中的服务的 pod 的数量。

Kueue 指标

从 CloudWatch 可观测性 EKS 附加组件的 v2.4.0-eksbuild.1 版本开始,适用于 Amazon EKS 的 Container Insights 支持从 Amazon EKS 集群收集 Kueue 指标。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理

有关启用这些指标的信息,请参阅启用 Kueue 指标来启用这些指标。

下表中列出了收集的 Kueue 指标。这些指标将发布到 CloudWatch 中的 ContainerInsights/Prometheus 命名空间中。其中一些指标使用以下维度:

  • ClusterQueue 是 ClusterQueue 的名称

  • Status 的可能值为 activeinadmissible

  • Reason 的可能值为 PreemptedPodsReadyTimeoutAdmissionCheckClusterQueueStoppedInactiveWorkload

  • Flavor 是引用的风格。

  • Resource 指集群计算机资源,例如 cpumemorygpu 等。

指标名称 Dimensions 描述

kueue_pending_workloads

ClusterName, ClusterQueue, Status

ClusterName, ClusterQueue

ClusterName, Status

ClusterName

待处理的工作负载数量。

kueue_evicted_workloads_total

ClusterName, ClusterQueue, Reason

ClusterName, ClusterQueue

ClusterName, Reason

ClusterName

已驱逐工作负载总数。

kueue_admitted_active_workloads

ClusterName, ClusterQueue

ClusterName

允许的处于活动状态(未暂停和未完成)的工作负载数量。

kueue_cluster_queue_resource_usage

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

报告 ClusterQueue 的总资源使用情况。

kueue_cluster_queue_nominal_quota

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

报告 ClusterQueue 的资源配额。