Amazon EKS 和 Kubernetes Container Insights 指标

下表列出了 Container Insights 为 Amazon EKS 和 Kubernetes 收集的指标和维度。这些指标位于 ContainerInsights 命名空间中。有关更多信息，请参阅指标。

如果您在控制台中未看到任何 Container Insights 指标，请确保已完成 Container Insights 的设置。在完全设置 Container Insights 之前，指标不会显示。有关更多信息，请参阅设置 Container Insights。

指标名称	Dimensions	说明
`cluster_failed_node_count`	`ClusterName`	集群中失败的工作线程节点的数目。如果节点遭受任何节点条件的影响，则该节点被视为失败。有关更多信息，请参阅 Kubernetes 文档中的条件。
`cluster_node_count`	`ClusterName`	集群中工作线程节点的总数。
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`	您使用的维度所指定的资源中每个命名空间运行的 pod 的数目。
`node_cpu_limit`	`ClusterName`	可以分配给此集群中单个节点的 CPU 单元的最大数目。
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	为节点组件保留的 CPU 单元的百分比，例如 kubelet、kube-proxy 和 Docker。公式：`node_cpu_request / node_cpu_limit` 注意 `node_cpu_request` 不是直接作为指标报告，而是性能日志事件中的一个字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`node_cpu_usage_total`	`ClusterName`	集群中节点上正在使用的 CPU 单元的数目。
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	集群中节点上正在使用的 CPU 单元的总百分比。公式：`node_cpu_usage_total / node_cpu_limit`
`node_gpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	节点上可用 GPU 的总数。
`node_gpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	节点上正在运行的容器组 (pod) 正在使用的 GPU 数量。
`node_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	节点上当前预留的 GPU 百分比。公式是 `node_gpu_request / node_gpu_limit`。注意 `node_gpu_request` 不是直接作为指标报告，而是性能日志事件中的一个字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	集群中节点上正在使用的文件系统容量的总百分比。公式：`node_filesystem_usage / node_filesystem_capacity` 注意 `node_filesystem_usage` 和 `node_filesystem_capacity` 不是直接作为指标报告，而是性能日志事件中的字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`node_memory_limit`	`ClusterName`	可以分配给此集群中单个节点的最大内存量（以字节为单位）。
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	集群中节点上当前正在使用的内存百分比。公式：`node_memory_request / node_memory_limit` 注意 `node_memory_request` 不是直接作为指标报告，而是性能日志事件中的一个字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	一个或多个节点当前正在使用的内存百分比。它是节点内存使用量除以节点内存限制的百分比。公式：`node_memory_working_set / node_memory_limit`。
`node_memory_working_set`	`ClusterName`	集群中节点的工作集中正在使用的内存量（以字节为单位）。
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	集群中每个节点通过网络传输和接收的每秒总字节数。公式：`node_network_rx_bytes + node_network_tx_bytes` 注意 `node_network_rx_bytes` 和 `node_network_tx_bytes` 不是直接作为指标报告，而是性能日志事件中的字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	集群中每个节点的正在运行的容器数。
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	集群中每个节点上运行的 pod 的数量。
`pod_cpu_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName`	集群中每个 pod 预留的 CPU 容量。公式：`pod_cpu_request / node_cpu_limit` 注意 `pod_cpu_request` 不是直接作为指标报告，而是性能日志事件中的一个字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`pod_cpu_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	pod 所使用的 CPU 单元的百分比。公式：`pod_cpu_usage_total / node_cpu_limit`
`pod_cpu_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	相对于容器组（pod）限制的容器组（pod）所使用的 CPU 单元的百分比。公式：`pod_cpu_usage_total / pod_cpu_limit`
`pod_gpu_request`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	容器组 (pod) 的 CPU 请求。此值必须始终等于 `pod_gpu_limit`。
`pod_gpu_limit`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	可以分配给节点中容器组 (pod) 的 GPU 的最大数量。
`pod_gpu_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	在 Pod 上分配的 GPU 数量。
`pod_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	当前为容器组 (pod) 预留的 GPU 百分比。公式是 pod_gpu_request / node_gpu_reserved_capacity。
`pod_memory_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName`	为 pod 预留的内存的百分比。公式：`pod_memory_request / node_memory_limit` 注意 `pod_memory_request` 不是直接作为指标报告，而是性能日志事件中的一个字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`pod_memory_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	一个或多个 pod 当前正在使用的内存百分比。公式：`pod_memory_working_set / node_memory_limit`
`pod_memory_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	相对于容器组（pod）限制的容器组（pod）所使用的内存百分比。如果容器组（pod）中的任何容器没有定义内存限制，则不会显示该指标。公式：`pod_memory_working_set / pod_memory_limit`
`pod_network_rx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	pod 通过网络每秒接收的字节数。公式：`sum(pod_interface_network_rx_bytes)` 注意 `pod_interface_network_rx_bytes` 不是直接作为指标报告，而是性能日志事件中的一个字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`pod_network_tx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	pod 通过网络每秒传输的字节数。公式：`sum(pod_interface_network_tx_bytes)` 注意 `pod_interface_network_tx_bytes` 不是直接作为指标报告，而是性能日志事件中的一个字段。有关更多信息，请参阅 Amazon EKS 和 Kubernetes 的性能日志事件中的相关字段。
`pod_number_of_container_restarts`	`PodName`, `Namespace`, `ClusterName`	一个 pod 中容器重新启动的总次数。
`service_number_of_running_pods`	`Service`, `Namespace`, `ClusterName` `ClusterName`	运行集群中的服务的 pod 的数量。

Kueue 指标

从 CloudWatch 可观测性 EKS 附加组件的 v2.4.0-eksbuild.1 版本开始，适用于 Amazon EKS 的 Container Insights 支持从 Amazon EKS 集群收集 Kueue 指标。有关附加组件的更多信息，请参阅使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。

有关启用这些指标的信息，请参阅启用 Kueue 指标来启用这些指标。

下表中列出了收集的 Kueue 指标。这些指标将发布到 CloudWatch 中的 ContainerInsights/Prometheus 命名空间中。其中一些指标使用以下维度：

ClusterQueue 是 ClusterQueue 的名称
Status 的可能值为 active 和 inadmissible
Reason 的可能值为 Preempted、PodsReadyTimeout、AdmissionCheck、ClusterQueueStopped 和 InactiveWorkload
Flavor 是引用的风格。
Resource 指集群计算机资源，例如 cpu、memory、gpu 等。

指标名称	Dimensions	说明
`kueue_pending_workloads`	`ClusterName`, `ClusterQueue`, `Status` `ClusterName`, `ClusterQueue` `ClusterName`, `Status` `ClusterName`	待处理的工作负载数量。
`kueue_evicted_workloads_total`	`ClusterName`, `ClusterQueue`, `Reason` `ClusterName`, `ClusterQueue` `ClusterName`, `Reason` `ClusterName`	已驱逐工作负载总数。
`kueue_admitted_active_workloads`	`ClusterName`, `ClusterQueue` `ClusterName`	允许的处于活动状态（未暂停和未完成）的工作负载数量。
`kueue_cluster_queue_resource_usage`	`ClusterName`, `ClusterQueue`, `Resource`, `Flavor` `ClusterName`, `ClusterQueue`, `Resource` `ClusterName`, `ClusterQueue`, `Flavor` `ClusterName`, `ClusterQueue` `ClusterName`	报告 ClusterQueue 的总资源使用情况。
`kueue_cluster_queue_nominal_quota`	`ClusterName`, `ClusterQueue`, `Resource`, `Flavor` `ClusterName`, `ClusterQueue`, `Resource` `ClusterName`, `ClusterQueue`, `Flavor` `ClusterName`, `ClusterQueue` `ClusterName`	报告 ClusterQueue 的资源配额。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

具有增强型可观测性的 Amazon EKS 和 Kubernetes Container Insights

性能日志参考

Amazon EKS 和 Kubernetes Container Insights 指标

注意

注意

注意

注意

注意

注意

注意

注意

注意

Kueue 指标