Amazon EKS 和 Kubernetes Container Insights 指标
下表列出了 Container Insights 为 Amazon EKS 和 Kubernetes 收集的指标和维度。这些指标位于 ContainerInsights
命名空间中。有关更多信息,请参阅 指标。
如果您在控制台中未看到任何 Container Insights 指标,请确保已完成 Container Insights 的设置。在完全设置 Container Insights 之前,指标不会显示。有关更多信息,请参阅 设置 Container Insights。
如果您使用 Amazon EKS 附加组件 1.5.0 版或更高版本或者 CloudWatch 代理 1.300035.0 版,则将为 Linux 和 Windows 节点收集下表中列出的大多数指标。请参阅该表的指标名称列,了解哪些指标并非为 Windows 收集。
在 Container Insights 的原始版本中,这些指标将作为自定义指标收费。借助针对 Amazon EKS 增强了可观测性的 Container Insights,Container Insights 指标按每次观测收费,而不是按存储的指标或摄取的日志收费。有关 CloudWatch 定价的信息,请参阅 Amazon CloudWatch 定价
注意
在 Windows 上,不会为主机进程容器收集 pod_network_rx_bytes
和 pod_network_tx_bytes
等网络指标。
指标名称 | 任何版本的 Container Insights 的维度 | 适用于针对 Amazon EKS 增强了可观测性的 Container Insights 的其他维度 | 描述 |
---|---|---|---|
|
|
集群中失败的工作线程节点的数目。如果节点遭受任何节点条件的影响,则该节点被视为失败。有关更多信息,请参阅 Kubernetes 文档中的条件 |
|
|
|
集群中工作线程节点的总数。 |
|
|
|
您使用的维度所指定的资源中每个命名空间运行的 pod 的数目。 |
|
|
|
|
可以分配给此集群中单个节点的 CPU 单元的最大数目。 |
|
|
为节点组件保留的 CPU 单元的百分比,例如 kubelet、kube-proxy 和 Docker。 公式: 注意
|
|
|
|
|
集群中节点上正在使用的 CPU 单元的数目。 |
|
|
集群中节点上正在使用的 CPU 单元的总百分比。 公式: |
|
|
|
集群中节点上正在使用的文件系统容量的总百分比。 公式: 注意
|
|
|
|
|
可以分配给此集群中单个节点的最大内存量(以字节为单位)。 |
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。 |
|
节点上 inode(已使用和未使用)的总数。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。 |
|
节点上未使用 inode 的总数。 |
|
|
|
集群中节点上当前正在使用的内存百分比。 公式: 注意
|
|
|
|
一个或多个节点当前正在使用的内存百分比。它是节点内存使用量除以节点内存限制的百分比。 公式: |
|
|
|
|
集群中节点的工作集中正在使用的内存量(以字节为单位)。 |
|
|
集群中每个节点通过网络传输和接收的每秒总字节数。 公式: 注意
|
|
|
|
集群中每个节点的正在运行的容器数。 |
|
|
|
集群中每个节点上运行的 pod 的数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
根据节点的可分配资源可以分配给节点的容器组(pod)数量,这定义为考虑系统进程守护程序预留和硬驱逐阈值后的节点容量余数。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
根据节点容量可以分配给节点的容器组(pod)数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示 Amazon EC2 节点的节点状态条件 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示节点状态条件是 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示节点状态条件是 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示节点状态条件是 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示是否有任何节点状态条件为“未知”。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights 此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
节点上的网络接口接收并随后丢弃的数据包数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
本应传输但被节点上的网络接口丢弃的数据包数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。 |
|
节点上所有 I/O 操作传输的总字节数。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。 |
|
节点上 I/O 操作的总数。 |
|
|
|
|
集群中每个 pod 预留的 CPU 容量。 公式: 注意
|
|
命名空间 Service、Namespace、
|
|
pod 所使用的 CPU 单元的百分比。 公式: 注意
|
|
命名空间 Service、Namespace、
|
|
相对于容器组(pod)限制的容器组(pod)所使用的 CPU 单元的百分比。 公式: 注意
|
|
|
|
为 pod 预留的内存的百分比。 公式: 注意
|
|
命名空间 Service、Namespace、
|
|
一个或多个 pod 当前正在使用的内存百分比。 公式: 注意
|
|
命名空间 Service、Namespace、
|
|
相对于容器组(pod)限制的容器组(pod)所使用的内存百分比。如果容器组(pod)中的任何容器没有定义内存限制,则不会显示该指标。 公式: 注意
|
|
命名空间 Service、Namespace、
|
|
pod 通过网络每秒接收的字节数。 公式: 注意
|
|
命名空间 Service、Namespace、
|
|
pod 通过网络每秒传输的字节数。 公式: 注意
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
容器组(pod)的 CPU 请求。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
容器组(pod)的内存请求。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
为容器组(pod)中的容器定义的 CPU 限制。如果容器组(pod)中的任何容器没有定义 CPU 限制,则不会显示此指标。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
为容器组(pod)中的容器定义的内存限制。如果容器组(pod)中的任何容器没有定义内存限制,则不会显示该指标。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示容器组(pod)中的所有容器都已终止,并且至少有一个容器以非零状态终止或已被系统终止。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示容器组(pod)中的所有容器都已准备就绪,且已达到 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示容器组(pod)中的所有容器都在运行。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示容器组(pod)已被调度到某个节点。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示无法获取容器组(pod)的状态。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示集群已接受容器组(pod),但其中一个或多个容器尚未准备就绪。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
表示容器组(pod)中的所有容器都已成功终止并且不会重启。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)规范中定义的容器数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中当前处于 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中处于 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中处于 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中处于 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中因 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中因 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中由于创建容器时出错而因 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中因 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中因内存不足(OOM 终止)而处于 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
报告容器组(pod)中由于启动容器时出错而因 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
容器组(pod)的网络接口接收并随后丢弃的数据包数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
本应传输但为容器组(pod)丢弃的数据包数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
容器所使用的 CPU 单元的百分比。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
相对于容器限制,容器所使用的 CPU 单元的百分比。如果容器没有定义 CPU 限制,则不会显示此指标。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
容器所使用的内存单元的百分比。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
相对于容器限制,容器所使用的内存单元的百分比。如果容器没有定义内存限制,则不会显示此指标。 公式: 注意
|
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights。其在 Windows 上不可用。 |
|
容器遇到的内存分配失败的次数。 |
|
|
PodName、 |
一个 pod 中容器重新启动的总次数。 |
|
|
Service、
|
运行集群中的服务的 pod 的数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
工作负载规范中定义的工作负载所需的容器组(pod)数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
已达到就绪状态的工作负载的容器组(pod)数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
工作负载可用的容器组(pod)数量。当容器组(pod)已就绪工作负载规范中定义的 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
工作负载不可用的容器组(pod)数量。当容器组(pod)已就绪工作负载规范中定义的 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
上次检查时存储在 etcd 中的对象数量。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
向 Kubernetes API 服务器发出的 API 请求总数。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
向 Kubernetes API 服务器发出的 API 请求的响应延迟。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
准入控制器延迟(以秒为单位)。准入控制器是拦截向 Kubernetes API 服务器发出的请求的代码。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
客户端在调用 Kubernetes API 服务器时遇到的响应延迟。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
客户端向 Kubernetes API 服务器发出的 API 请求总数。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
对 Etcd 的 API 调用的响应延迟。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
物理分配的存储数据库文件的大小(以字节为单位)。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
向 Kubernetes API 服务器发出的长时间运行的活跃请求数。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
Kubernetes API 服务器正在处理的请求数。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
准入 Webhook 延迟(以秒为单位)。准入 Webhook 是 HTTP 回调,用于接收准入请求并对其进行一些处理。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
准入子步骤延迟(以秒为单位)。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
向 Kubernetes API 服务器上已弃用的 API 发出的请求数。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
向 Kubernetes API 服务器发出的请求数,这些请求以 5XX HTTP 响应代码为响应。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
列出 Etcd 中的对象的响应延迟。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
Kubernetes API 服务器排队的请求数。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。 |
|
此指标仅适用于针对 Amazon EKS 增强了可观测性的 Container Insights |
|
API 优先级和公平性子系统拒绝的请求数。此指标是实验性的,在将来的 Kubernetes 版本中可能会发生变化。 |
NVIDIA GPU 指标
从 CloudWatch 代理版本 1.300034.0
开始,针对 Amazon EKS 增强了可观测性的 Container Insights 默认从 EKS 工作负载收集 NVIDIA GPU 指标。必须使用 CloudWatch Observability EKS 附加组件版本 v1.3.0-eksbuild.1
或更高版本安装 CloudWatch 代理。有关更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。本节的表中列出了这些会被收集的 NVIDIA GPU 指标。
要让 Container Insights 收集 NVIDIA GPU 指标,必须满足以下先决条件:
必须将针对 Amazon EKS 增强了可观测性的 Container Insights 与 Amazon CloudWatch Observability EKS 附加组件版本
v1.3.0-eksbuild.1
或更高版本结合使用。集群中必须安装适用于 Kubernetes 的 NVIDIA 设备插件
。 集群的节点上必须安装 NVIDIA 容器工具包
。例如,使用必要的组件构建 Amazon EKS 优化版加速型 AMI。
您可以将起始 CloudWatch 代理配置文件中的 accelerated_compute_metrics
选项设置为 false
,从而选择不收集 NVIDIA GPU 指标。有关更多信息和选择不收集配置的示例,请参阅 (可选)其他配置。
指标名称 | Dimensions | 描述 |
---|---|---|
|
|
分配给容器的 GPU 上的帧缓冲区总大小(以字节为单位)。 |
|
|
分配给容器的 GPU 上使用的帧缓冲区字节数。 |
|
|
分配给容器的 GPU 已使用的帧缓冲区百分比。 |
|
|
分配给容器的 GPU 的功耗(以瓦特为单位)。 |
|
|
分配给容器的 GPU 的温度(以摄氏度为单位)。 |
|
|
分配给容器的 GPU 的利用率百分比。 |
|
|
分配给节点的 GPU 上的帧缓冲区总大小(以字节为单位)。 |
|
|
分配给节点的 GPU 上使用的帧缓冲区字节数。 |
|
|
分配给节点的 GPU 上使用的帧缓冲区百分比。 |
|
|
分配给节点的 GPU 的功耗(以瓦特为单位)。 |
|
|
分配给节点的 GPU 的温度(以摄氏度为单位)。 |
|
|
分配给节点的 GPU 的利用率百分比。 |
|
|
分配给 Pod 的 GPU 上的帧缓冲区总大小(以字节为单位)。 |
|
|
分配给 Pod 的 GPU 上使用的帧缓冲区字节数。 |
|
|
分配给 Pod 的 GPU 上使用的帧缓冲区百分比。 |
|
|
分配给 Pod 的 GPU 的功耗(以瓦特为单位)。 |
|
|
分配给 Pod 的 GPU 的温度(以摄氏度为单位)。 |
|
|
分配给 Pod 的 GPU 的利用率百分比。 |
Amazon Trainium 和 Amazon Inferentia 的 Amazon Neuron 指标
从 CloudWatch 代理版本 1.300036.0
开始,针对 Amazon EKS 增强了可观测性的 Container Insights 默认从 Amazon Trainium 和 Amazon Inferentia 加速器收集加速计算指标。必须使用 CloudWatch Observability EKS 附加组件版本 v1.5.0-eksbuild.1
或更高版本安装 CloudWatch 代理。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。有关 Amazon Trainium 的更多信息,请参阅 Amazon Trainium
要让 Container Insights 收集 Amazon Neuron 指标,必须满足以下先决条件:
必须将针对 Amazon EKS 增强了可观测性的 Container Insights 与 Amazon CloudWatch Observability EKS 附加组件版本
v1.5.0-eksbuild.1
或更高版本结合使用。Neuron 驱动程序
必须安装在集群的节点上。 Neuron 设备插件
必须安装在集群上。例如,使用必要的组件构建 Amazon EKS 优化版加速型 AMI。
本节的表中列出了将收集的指标。这些指标是为 Amazon Trainium、Amazon Inferentia 和 Amazon Inferentia2 收集的。
CloudWatch 代理从 Neuron Monitor
指标名称 | Dimensions | 描述 |
---|---|---|
|
|
分配给容器的 NeuronCore 在捕获期内的 NeuronCore 利用率。 单位:百分比 |
|
|
分配给容器的 NeuronCore 在训练期间用于常量的设备内存量(或推理期间的权重)。 单位:字节 |
|
|
分配给容器的 NeuronCore 用于模型可执行代码的设备内存量。 单位:字节 |
|
|
分配给容器的 NeuronCore 用于模型共享暂存器的设备内存量。此内存区域保留用于模型。 单位:字节 |
|
|
分配给容器的 NeuronCore 用于 Neuron 运行时的设备内存量。 单位:字节 |
|
|
分配给容器的 NeuronCore 用于张量的设备内存量。 单位:字节 |
|
|
分配给容器的 NeuronCore 使用的内存总量。 单位:字节 |
|
|
节点上 Neuron 设备的片上 SRAM 和设备内存的已校正和未校正 ECC 事件数。 单位:计数 |
|
|
分配给容器组(pod)的 NeuronCore 在捕获期内的 NeuronCore 利用率。 单位:百分比 |
|
|
分配给容器组(pod)的 NeuronCore 在训练期间用于常量的设备内存量(或推理期间的权重)。 单位:字节 |
|
|
分配给容器组(pod)的 NeuronCore 用于模型可执行代码的设备内存量。 单位:字节 |
|
|
分配给容器组(pod)的 NeuronCore 用于模型共享暂存器的设备内存量。此内存区域保留用于模型。 单位:字节 |
|
|
分配给容器组(pod)的 NeuronCore 用于 Neuron 运行时的设备内存量。 单位:字节 |
|
|
分配给容器组(pod)的 NeuronCore 用于张量的设备内存量。 单位:字节 |
|
|
分配给容器组(pod)的 NeuronCore 使用的内存总量。 单位:字节 |
|
|
分配给容器组(pod)的 Neuron 设备的片上 SRAM 和设备内存的已校正和未校正 ECC 事件数。 单位:字节 |
|
|
分配给节点的 NeuronCore 在捕获期内的 NeuronCore 利用率。 单位:百分比 |
|
|
分配给节点的 NeuronCore 在训练期间用于常量的设备内存量(或推理期间的权重)。 单位:字节 |
|
|
分配给节点的 NeuronCore 用于模型可执行代码的设备内存量。 单位:字节 |
|
|
分配给节点的 NeuronCore 用于模型共享暂存器的设备内存量。这保留用于模型的内存区域。 单位:字节 |
|
|
分配给节点的 NeuronCore 用于 Neuron 运行时的设备内存量。 单位:字节 |
|
|
分配给节点的 NeuronCore 用于张量的设备内存量。 单位:字节 |
|
|
分配给节点的 NeuronCore 使用的内存总量。 单位:字节 |
|
|
节点上执行错误的总数。这是由 CloudWatch 代理通过汇总以下类型的错误来计算的: 单位:计数 |
|
|
节点上 Neuron 设备内存使用总量(以字节为单位)。 单位:字节 |
|
|
Neuron 运行时测量的节点上执行的延迟(以秒为单位)。 单位:秒 |
|
|
节点上 Neuron 设备的片上 SRAM 和设备内存的已校正和未校正 ECC 事件数。 单位:计数 |
Amazon Elastic Fabric Adapter(EFA)指标
从 CloudWatch 代理版本 1.300037.0
开始,针对 Amazon EKS 增强了可观测性的 Container Insights 从 Linux 实例上的 Amazon EKS 集群收集 Amazon Elastic Fabric Adapter(EFA)指标。必须使用 CloudWatch Observability EKS 附加组件版本 v1.5.2-eksbuild.1
或更高版本安装 CloudWatch 代理。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。有关 Amazon Elastic Fabric Adapter(EFA)的更多信息,请参阅 Elastic Fabric Adapter
要让 Container Insights 收集 Amazon Elastic Fabric Adapter 指标,必须满足以下先决条件:
必须将针对 Amazon EKS 增强了可观测性的 Container Insights 与 Amazon CloudWatch Observability EKS 附加组件版本
v1.5.2-eksbuild.1
或更高版本结合使用。EFA 设备插件必须安装在集群上。有关更多信息,请参阅 GitHub 上的 aws-efa-k8s-device-plugin
。
下表中列出了收集的指标。
指标名称 | Dimensions | 描述 |
---|---|---|
|
|
分配给容器的 EFA 设备每秒接收的字节数。 单位:字节/秒 |
|
|
分配给容器的 EFA 设备每秒传输的字节数。 单位:字节/秒 |
|
|
分配给容器的 EFA 设备接收然后丢弃的数据包数量。 单位:计数/秒 |
|
|
分配给容器的 EFA 设备使用远程直接内存访问读取操作每秒接收的字节数。 单位:字节/秒 |
|
|
分配给容器的 EFA 设备使用远程直接内存访问读取操作每秒传输的字节数。 单位:字节/秒 |
|
|
分配给容器的 EFA 设备在远程直接内存访问写入操作期间每秒接收的字节数。 单位:字节/秒 |
|
|
分配给容器组(pod)的 EFA 设备每秒接收的字节数。 单位:字节/秒 |
|
|
分配给容器组(pod)的 EFA 设备每秒传输的字节数。 单位:字节/秒 |
|
|
分配给容器组(pod)的 EFA 设备接收然后丢弃的数据包数量。 单位:计数/秒 |
|
|
分配给容器组(pod)的 EFA 设备使用远程直接内存访问读取操作每秒接收的字节数。 单位:字节/秒 |
|
|
分配给容器组(pod)的 EFA 设备使用远程直接内存访问读取操作每秒传输的字节数。 单位:字节/秒 |
|
|
分配给容器组(pod)的 EFA 设备在远程直接内存访问写入操作期间每秒接收的字节数。 单位:字节/秒 |
|
|
分配给节点的 EFA 设备每秒接收的字节数。 单位:字节/秒 |
|
|
分配给节点的 EFA 设备每秒传输的字节数。 单位:字节/秒 |
|
|
分配给节点的 EFA 设备接收然后丢弃的数据包数量。 单位:计数/秒 |
|
|
分配给节点的 EFA 设备使用远程直接内存访问读取操作每秒接收的字节数。 单位:字节/秒 |
|
|
分配给容器组(pod)的 EFA 设备使用远程直接内存访问读取操作每秒传输的字节数。 单位:字节/秒 |
|
|
分配给节点的 EFA 设备在远程直接内存访问写入操作期间每秒接收的字节数。 单位:字节/秒 |
Amazon SageMaker HyperPod 指标
从 CloudWatch Observability EKS 附加组件的 v2.0.1-eksbuild.1
版本开始,具有 Amazon EKS 增强可观测性的 Container Insights 会自动从 Amazon EKS 集群收集 Amazon SageMaker HyperPod 指标。有关附加组件的更多信息,请参阅 使用 Amazon CloudWatch Observability EKS 附加组件或 Helm 图表安装 CloudWatch 代理。有关 Amazon SageMaker HyperPod 的更多信息,请参阅 Amazon SageMaker HyperPod。
下表中列出了收集的指标。
指标名称 | Dimensions | 描述 |
---|---|---|
|
|
表示节点是否被 单位:计数 |
|
|
表示节点是否被 单位:计数 |
|
|
表示节点是否被 HyperPod 标记为 如果启用了自动节点恢复,该节点将自动被 Amazon SageMaker HyperPod 替换。 单位:计数 |
|
|
表示节点是否被 如果启用了自动节点恢复,Amazon SageMaker HyperPod 将自动重启该节点。 单位:计数 |