

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon SageMaker HyperPod Slurm 指标
Slurm 指标

Amazon SageMaker HyperPod 提供了一组亚马逊 CloudWatch 指标，您可以使用这些指标来监控 HyperPod 集群的运行状况和性能。这些指标是从集 HyperPod 群上运行的 Slurm 工作负载管理器收集的，可在命名空间中`/aws/sagemaker/Clusters` CloudWatch 使用。

## 集群级别指标


以下集群级别的指标可用于。 HyperPod这些指标使用`ClusterId`维度来标识特定的 HyperPod 集群。


| CloudWatch 指标名称 | 注意 | Amazon EKS Container Insights 指标名称 | 
| --- | --- | --- | 
| cluster\$1node\$1count | 集群中的节点总数 | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | 集群中的空闲节点数 | 不适用 | 
| cluster\$1failed\$1node\$1count | 集群中的故障节点数 | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | 集群中的 CPU 内核总数 | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | 集群中的空闲 CPU 内核数 | 不适用 | 
| cluster\$1gpu\$1count | 集群 GPUs 中的总数 | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | 集群 GPUs 中的空闲人数 | 不适用 | 
| cluster\$1running\$1task\$1count | 集群中正在运行的 Slurm 作业数 | 不适用 | 
| cluster\$1pending\$1task\$1count | 集群中的待处理 Slurm 作业数 | 不适用 | 
| cluster\$1preempted\$1task\$1count | 集群中的已抢占 Slurm 作业数 | 不适用 | 
| cluster\$1avg\$1task\$1wait\$1time | 集群中的 Slurm 作业的平均等待时间 | 不适用 | 
| cluster\$1max\$1task\$1wait\$1time | 集群中的 Slurm 作业的最长等待时间 | 不适用 | 

## 实例级别指标


以下实例级别指标可用于。 HyperPod这些指标还使用`ClusterId`维度来标识特定的 HyperPod 集群。


| CloudWatch 指标名称 | 注意 | Amazon EKS Container Insights 指标名称 | 
| --- | --- | --- | 
| node\$1gpu\$1utilization | 所有实例的平均 GPU 利用率 | node\$1gpu\$1utilization | 
| node\$1gpu\$1memory\$1utilization | 所有实例的平均 GPU 内存利用率 | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | 所有实例的平均 CPU 利用率 | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | 所有实例的平均内存利用率 | node\$1memory\$1utilization | 