Amazon EKS 和 Kubernetes Container Insights 指标
下表列出了 Container Insights 为 Amazon EKS 和 Kubernetes 收集的指标和维度。这些指标位于 ContainerInsights
命名空间中。有关更多信息,请参阅 Metrics。
如果您在控制台中未看到任何 Container Insights 指标,请确保已完成 Container Insights 的设置。在完全设置 Container Insights 之前,指标不会显示。有关更多信息,请参阅 设置 Container Insights。
指标名称 | Dimensions | 描述 |
---|---|---|
|
|
集群中失败的工作线程节点的数目。如果节点遭受任何节点条件的影响,则该节点被视为失败。有关更多信息,请参阅 Kubernetes 文档中的条件 |
|
|
集群中工作线程节点的总数。 |
|
|
您使用的维度所指定的资源中每个命名空间运行的 pod 的数目。 |
|
|
可以分配给此集群中单个节点的 CPU 单元的最大数目。 |
|
|
为节点组件保留的 CPU 单元的百分比,例如 kubelet、kube-proxy 和 Docker。 公式: 注意
|
|
|
集群中节点上正在使用的 CPU 单元的数目。 |
|
|
集群中节点上正在使用的 CPU 单元的总百分比。 公式: |
|
|
节点上可用 GPU 的总数。 |
|
|
节点上正在运行的容器组 (pod) 正在使用的 GPU 数量。 |
|
|
节点上当前预留的 GPU 百分比。公式是 注意
|
|
|
集群中节点上正在使用的文件系统容量的总百分比。 公式: 注意
|
|
|
可以分配给此集群中单个节点的最大内存量(以字节为单位)。 |
|
|
集群中节点上当前正在使用的内存百分比。 公式: 注意
|
|
|
一个或多个节点当前正在使用的内存百分比。它是节点内存使用量除以节点内存限制的百分比。 公式: |
|
|
集群中节点的工作集中正在使用的内存量(以字节为单位)。 |
|
|
集群中每个节点通过网络传输和接收的每秒总字节数。 公式: 注意
|
|
|
集群中每个节点的正在运行的容器数。 |
|
|
集群中每个节点上运行的 pod 的数量。 |
|
|
集群中每个 pod 预留的 CPU 容量。 公式: 注意
|
|
|
pod 所使用的 CPU 单元的百分比。 公式: |
|
|
相对于容器组(pod)限制的容器组(pod)所使用的 CPU 单元的百分比。 公式: |
|
|
容器组 (pod) 的 CPU 请求。此值必须始终等于 |
|
|
可以分配给节点中容器组 (pod) 的 GPU 的最大数量。 |
|
|
在 Pod 上分配的 GPU 数量。 |
|
|
当前为容器组 (pod) 预留的 GPU 百分比。公式是 pod_gpu_request / node_gpu_reserved_capacity。 |
|
|
为 pod 预留的内存的百分比。 公式: 注意
|
|
|
一个或多个 pod 当前正在使用的内存百分比。 公式: |
|
|
相对于容器组(pod)限制的容器组(pod)所使用的内存百分比。如果容器组(pod)中的任何容器没有定义内存限制,则不会显示该指标。 公式: |
|
|
pod 通过网络每秒接收的字节数。 公式: 注意
|
|
|
pod 通过网络每秒传输的字节数。 公式: 注意
|
|
|
一个 pod 中容器重新启动的总次数。 |
|
|
运行集群中的服务的 pod 的数量。 |
Kueue 指标
从 CloudWatch 可观测性 EKS 附加组件的 v2.4.0-eksbuild.1
版本开始,适用于 Amazon EKS 的 Container Insights 支持从 Amazon EKS 集群收集 Kueue 指标。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。
有关启用这些指标的信息,请参阅启用 Kueue 指标来启用这些指标。
下表中列出了收集的 Kueue 指标。这些指标将发布到 CloudWatch 中的 ContainerInsights/Prometheus
命名空间中。其中一些指标使用以下维度:
ClusterQueue
是 ClusterQueue 的名称Status
的可能值为active
和inadmissible
Reason
的可能值为Preempted
、PodsReadyTimeout
、AdmissionCheck
、ClusterQueueStopped
和InactiveWorkload
Flavor
是引用的风格。Resource
指集群计算机资源,例如cpu
、memory
、gpu
等。
指标名称 | Dimensions | 描述 |
---|---|---|
|
|
待处理的工作负载数量。 |
|
|
已驱逐工作负载总数。 |
|
|
允许的处于活动状态(未暂停和未完成)的工作负载数量。 |
|
|
报告 ClusterQueue 的总资源使用情况。 |
|
|
报告 ClusterQueue 的资源配额。 |