Amazon SageMaker HyperPod Slurm 指标 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker HyperPod Slurm 指标

Amazon SageMaker HyperPod 提供了一组亚马逊 CloudWatch 指标,您可以使用这些指标来监控 HyperPod 集群的运行状况和性能。这些指标是从集 HyperPod 群上运行的 Slurm 工作负载管理器收集的,可在命名空间中/aws/sagemaker/Clusters CloudWatch 使用。

集群级别指标

以下集群级别的指标可用于。 HyperPod这些指标使用ClusterId维度来标识特定的 HyperPod 集群。

CloudWatch 指标名称 备注 Amazon EKS 容器洞察指标名称
cluster_node_count 集群中的节点总数 cluster_node_count
cluster_idle_node_count 集群中空闲节点的数量 不适用
cluster_failed_node_count 集群中出现故障的节点数 cluster_failed_node_count
cluster_cpu_count 集群中的 CPU 核心总数 node_cpu_limit
cluster_idle_cpu_count 集群中闲置的 CPU 内核数 不适用
cluster_gpu_count 集群 GPUs 中的总数 node_gpu_limit
cluster_idle_gpu_count 集群 GPUs 中的空闲人数 不适用
集群正在运行的任务计数 集群中正在运行的 Slurm 作业的数量 不适用
集群待处理任务计数 集群中待处理的 Slurm 任务数量 不适用
cluster_preempted_task_count 集群中抢占的 Slurm 作业数量 不适用
cluster_avg_task_wait_time 集群中 Slurm 作业的平均等待时间 不适用
cluster_max_task_wait_time 集群中 Slurm 作业的最长等待时间 不适用

实例级别指标

以下实例级别指标可用于。 HyperPod这些指标还使用ClusterId维度来标识特定的 HyperPod 集群。

CloudWatch 指标名称 备注 Amazon EKS 容器洞察指标名称
node_gpu_利用率 所有实例的平均 GPU 使用率 node_gpu_利用率
node_gpu_内存利用率 所有实例的平均 GPU 内存使用率 node_gpu_内存利用率
node_cpu_utilization 所有实例的平均 CPU 使用率 node_cpu_utilization
node_memory_utilization 所有实例的平均内存使用率 node_memory_utilization