SageMaker HyperPod 集群指标 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 集群指标

亚马逊 SageMaker HyperPod (SageMaker HyperPod) 向您的 Prometheus 亚马逊托管服务工作区发布了 9 个不同类别的各种指标。并非所有指标在默认情况下都是启用的,也并非所有指标都会显示在 Amazon Managed Grafana 工作区中。下表会显示在安装可观测性附加组件时默认启用的指标、包含可额外启用以获取更精细集群信息的指标的类别,以及这些指标在 Amazon Managed Grafana 工作区中的显示位置。

指标类别 是否默认启用? 是否有其他可用的高级指标? 在哪个 Grafana 控制面板可用?
训练指标 支持 训练
推理指标 推理
任务治理指标 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。
扩展指标 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。
集群指标 支持 Cluster
实例指标 支持 Cluster
加速计算指标 支持 任务,集群
网络指标 Cluster
文件系统 文件系统

下表描述了可用于监控您的 SageMaker HyperPod 集群的指标,按类别排列。

训练指标

使用这些指标来跟踪在 SageMaker HyperPod 集群上执行的训练任务的性能。

指标名称或类型 说明 是否默认启用? 指标来源
Kubeflow 指标 https://github.com/kubeflow/教练 Kubeflow
Kubernetes 容器组(pod)指标 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 总窗口时长中训练时长所占的百分比 SageMaker HyperPod 培训操作员
training_manual_recovery_count 已对作业执行的手动重启总次数 SageMaker HyperPod 培训操作员
training_manual_downtime_ms 因手动干预导致作业中断的总时长(以毫秒为单位) SageMaker HyperPod 培训操作员
training_auto_recovery_count 自动恢复总次数 SageMaker HyperPod 培训操作员
training_auto_recovery_downtime 故障恢复期间基础设施的总开销时长(以毫秒为单位) SageMaker HyperPod 培训操作员
training_fault_count 训练期间遇到的故障总数 SageMaker HyperPod 培训操作员
training_fault_type_count 按类型划分的故障分布 SageMaker HyperPod 培训操作员
training_fault_recovery_time_ms 每种类型的故障的恢复时间(以毫秒为单位) SageMaker HyperPod 培训操作员
training_time_ms 实际训练所花费的总时长(以毫秒为单位) SageMaker HyperPod 培训操作员

推理指标

使用这些指标来跟踪集 SageMaker HyperPod 群上推理任务的性能。

指标名称或类型 说明 是否默认启用? 指标来源
model_invocations_total 模型的调用请求总数 SageMaker HyperPod 推理运算符
model_errors_total 模型调用期间的错误总数 SageMaker HyperPod 推理运算符
model_concurrent_requests 活跃的并发模型请求数 SageMaker HyperPod 推理运算符
model_latency_milliseconds 模型调用延迟(以毫秒为单位) SageMaker HyperPod 推理运算符
model_ttfb_milliseconds 模型首字节时间延迟(以毫秒为单位) SageMaker HyperPod 推理运算符
TGI 这些指标可用于监控 TGI 的性能、自动扩缩部署并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 模型容器
LMI 这些指标可用于监控 LMI 的性能并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 模型容器

任务治理指标

使用这些指标来监控 SageMaker HyperPod 集群上的任务管理和资源分配。

指标名称或类型 说明 是否默认启用? 指标来源
Kueue https://kueue.sigs.k8s。 io/docs/reference/metrics/。 Kueue

扩展指标

使用这些指标来监控集群上的自动缩放行为和性能。 SageMaker HyperPod

指标名称或类型 说明 是否默认启用? 指标来源
KEDA 操作符指标 https://keda。 sh/docs/2.17/integrations/prometheus/#operator Kubernetes 事件驱动型自动扩缩器(KEDA)
KEDA Webhook 指标 https://keda。 sh/docs/2.17/integrations/prometheus/#admission-webhooks Kubernetes 事件驱动型自动扩缩器(KEDA)
KEDA 指标服务器指标 https://keda。 sh/docs/2.17/integrations/prometheus/#metrics-服务器。 Kubernetes 事件驱动型自动扩缩器(KEDA)

集群指标

使用这些指标可监控集群的整体运行状况和资源分配。

指标名称或类型 说明 是否默认启用? 指标来源
集群运行状况 Kubernetes API 服务器指标。见 https://kubernetes。 io/docs/reference/instrumentation/metrics/。 Kubernetes
Kubestate 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources 有限 Kubernetes
KubeState 高级 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources Kubernetes

实例指标

使用这些指标可监控单个实例的性能和运行状况。

指标名称或类型 说明 是否默认启用? 指标来源
节点指标 看见 https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default Kubernetes
容器指标 Cadvisor 公开的容器指标。见 https://github.com/google/cadvisor Kubernetes

加速计算指标

使用这些指标可监控集群中单个加速计算设备的性能、运行状况和利用率。

注意

在集群上启用使用 MIG(多实例 GPU)的 GPU 分区时,DCGM 指标会自动提供分区级别的粒度,用于监控单个 MIG 实例。每个 MIG 分区都作为单独的 GPU 设备公开,具有自己的温度、功耗、内存利用率和计算活动指标。这使您可以独立跟踪每个 GPU 分区的资源使用情况和运行状况,从而可以精确监控在部分 GPU 资源上运行的工作负载。有关配置 GPU 分区的更多信息,请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod

指标名称或类型 说明 是否默认启用? 指标来源
NVIDIA GPU DCGM 指标。见 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv 有限

NVIDIA Data Center GPU Manager(DCGM)

NVIDIA GPU(高级)

以下 CSV 文件中注释掉的 DCGM 指标:

https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp

NVIDIA Data Center GPU Manager(DCGM)

AmazonTrainium Neuron 指标。参见 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide .html#。neuron-monitor-nc-counters Amazon神经元监视器

网络指标

使用这些指标可监控集群中 Elastic Fabric Adapter(EFA)的性能和运行状况。

指标名称或类型 说明 是否默认启用? 指标来源
EFA 参见 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Elastic Fabric Adapter

文件系统指标

指标名称或类型 说明 是否默认启用? 指标来源
文件系统 来自亚马逊 FSx 的 Amazon for Lustre 指标: CloudWatch

使用 Amazon 进行监控 CloudWatch

亚马逊 f FSx or Lustre