本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker HyperPod Slurm 指标
Amazon SageMaker HyperPod 提供了一组亚马逊 CloudWatch 指标,您可以使用这些指标来监控 HyperPod 集群的运行状况和性能。这些指标是从集 HyperPod 群上运行的 Slurm 工作负载管理器收集的,可在命名空间中/aws/sagemaker/Clusters
CloudWatch 使用。
集群级别指标
以下集群级别的指标可用于。 HyperPod这些指标使用ClusterId
维度来标识特定的 HyperPod 集群。
CloudWatch 指标名称 | 备注 | Amazon EKS 容器洞察指标名称 |
---|---|---|
cluster_node_count | 集群中的节点总数 | cluster_node_count |
cluster_idle_node_count | 集群中空闲节点的数量 | 不适用 |
cluster_failed_node_count | 集群中出现故障的节点数 | cluster_failed_node_count |
cluster_cpu_count | 集群中的 CPU 核心总数 | node_cpu_limit |
cluster_idle_cpu_count | 集群中闲置的 CPU 内核数 | 不适用 |
cluster_gpu_count | 集群 GPUs 中的总数 | node_gpu_limit |
cluster_idle_gpu_count | 集群 GPUs 中的空闲人数 | 不适用 |
集群正在运行的任务计数 | 集群中正在运行的 Slurm 作业的数量 | 不适用 |
集群待处理任务计数 | 集群中待处理的 Slurm 任务数量 | 不适用 |
cluster_preempted_task_count | 集群中抢占的 Slurm 作业数量 | 不适用 |
cluster_avg_task_wait_time | 集群中 Slurm 作业的平均等待时间 | 不适用 |
cluster_max_task_wait_time | 集群中 Slurm 作业的最长等待时间 | 不适用 |
实例级别指标
以下实例级别指标可用于。 HyperPod这些指标还使用ClusterId
维度来标识特定的 HyperPod 集群。
CloudWatch 指标名称 | 备注 | Amazon EKS 容器洞察指标名称 |
---|---|---|
node_gpu_利用率 | 所有实例的平均 GPU 使用率 | node_gpu_利用率 |
node_gpu_内存利用率 | 所有实例的平均 GPU 内存使用率 | node_gpu_内存利用率 |
node_cpu_utilization | 所有实例的平均 CPU 使用率 | node_cpu_utilization |
node_memory_utilization | 所有实例的平均内存使用率 | node_memory_utilization |