受限实例组的指标可用性训练指标推理指标任务治理指标扩展指标集群指标实例指标加速计算指标网络指标文件系统指标

SageMaker HyperPod 集群指标

亚马逊 SageMaker HyperPod (SageMaker HyperPod) 向您的 Prometheus 亚马逊托管服务工作区发布了 9 个不同类别的各种指标。并非所有指标在默认情况下都是启用的，也并非所有指标都会显示在 Amazon Managed Grafana 工作区中。下表会显示在安装可观测性附加组件时默认启用的指标、包含可额外启用以获取更精细集群信息的指标的类别，以及这些指标在 Amazon Managed Grafana 工作区中的显示位置。

指标类别	是否默认启用？	是否有其他可用的高级指标？	在哪个 Grafana 控制面板可用？
训练指标	支持	是	训练
推理指标	是	否	推理
任务治理指标	否	是	无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。
扩展指标	否	是	无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。
集群指标	支持	是	Cluster
实例指标	支持	是	Cluster
加速计算指标	支持	是	任务，集群
网络指标	否	是	Cluster
文件系统	是	否	文件系统

下表描述了可用于监控您的 SageMaker HyperPod 集群的指标，按类别排列。

受限实例组的指标可用性

当您的集群包含受限实例组时，大多数指标类别都可以在受限节点上使用，但有以下例外情况和注意事项。您还可以根据自己选择的任何指标设置提醒。

指标类别	在 RIG 节点上可用吗？	注意
训练指标	是	Kubeflow 和 Kubernetes 容器指标已收集。高级训练 KPI 指标（来自训练指标代理）无法从 RIG 节点获得。
推理指标	否	受限实例组不支持推理工作负载。
任务治理指标	否	Kueue 指标仅从标准节点（如果有）收集。
扩展指标	否	仅从标准节点收集 KEDA 指标（如果有）。
集群指标	是	Kube 状态指标和 API 服务器指标可用。Kube State Metrics 优先安排在标准节点上，但可以在集群中的 RIG-only受限节点上运行。
实例指标	是	Node Exporter 和 cAdvisor 指标是在包括受限节点在内的所有节点上收集的。
加速计算指标	是	DCGM 导出器在 GPU-enabled 受限节点上运行。启用高级模式后，Neuron Monitor 在 Neuron-enabled 受限节点上运行。
网络指标	是	启用高级模式后，EFA 导出器将在 EFA-enabled 受限节点上运行。
文件系统指标	是	受限实例组支持 FSx for Lustre 集群利用率指标。

注意

使用 Fluent Bit 的容器日志收集未部署在受限节点上。来自受限节点的集群日志可通过 SageMaker HyperPod 平台获取，与可观察性插件无关。您可以在 “集群日志” 仪表板中查看这些日志。

训练指标

使用这些指标来跟踪在 SageMaker HyperPod 集群上执行的训练任务的性能。

指标名称或类型	说明	是否默认启用？	指标来源
Kubeflow 指标	https://github.com/kubeflow/trainer	是	Kubeflow
Kubernetes 容器组（pod）指标	https://github.com/kubernetes/kube-state-metrics	是	Kubernetes
`training_uptime_percentage`	总窗口时长中训练时长所占的百分比	否	SageMaker HyperPod 培训操作员
`training_manual_recovery_count`	已对作业执行的手动重启总次数	否	SageMaker HyperPod 培训操作员
`training_manual_downtime_ms`	因手动干预导致作业中断的总时长（以毫秒为单位）	否	SageMaker HyperPod 培训操作员
`training_auto_recovery_count`	自动恢复总次数	否	SageMaker HyperPod 培训操作员
`training_auto_recovery_downtime`	故障恢复期间基础设施的总开销时长（以毫秒为单位）	否	SageMaker HyperPod 培训操作员
`training_fault_count`	训练期间遇到的故障总数	否	SageMaker HyperPod 培训操作员
`training_fault_type_count`	按类型划分的故障分布	否	SageMaker HyperPod 培训操作员
`training_fault_recovery_time_ms`	每种类型的故障的恢复时间（以毫秒为单位）	否	SageMaker HyperPod 培训操作员
`training_time_ms`	实际训练所花费的总时长（以毫秒为单位）	否	SageMaker HyperPod 培训操作员

推理指标

使用这些指标来跟踪集 SageMaker HyperPod 群上推理任务的性能。

指标名称或类型	说明	是否默认启用？	指标来源
`model_invocations_total`	模型的调用请求总数	是	SageMaker HyperPod 推理运算符
`model_errors_total`	模型调用期间的错误总数	是	SageMaker HyperPod 推理运算符
`model_concurrent_requests`	活跃的并发模型请求数	是	SageMaker HyperPod 推理运算符
`model_latency_milliseconds`	模型调用延迟（以毫秒为单位）	是	SageMaker HyperPod 推理运算符
`model_ttfb_milliseconds`	模型首字节时间延迟（以毫秒为单位）	是	SageMaker HyperPod 推理运算符
TGI	这些指标可用于监控 TGI 的性能、自动扩缩部署并帮助识别瓶颈。有关指标的详细列表，请参阅https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md。	是	模型容器
LMI	这些指标可用于监控 LMI 的性能并帮助识别瓶颈。有关指标的详细列表，请参阅https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md。	是	模型容器

任务治理指标

使用这些指标来监控 SageMaker HyperPod 集群上的任务管理和资源分配。

指标名称或类型	说明	是否默认启用？	指标来源
Kueue	请参阅 https://kueue.sigs.k8s.io/docs/reference/metrics/。	否	Kueue

扩展指标

使用这些指标来监控集群上的自动缩放行为和性能。 SageMaker HyperPod

指标名称或类型	说明	是否默认启用？	指标来源
KEDA 操作符指标	见 https://keda.sh/docs/2.17/integrations/prometheus/#operator。	否	Kubernetes Event-driven 自动扩缩器 (KEDA)
KEDA Webhook 指标	请参阅 https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks。	否	Kubernetes Event-driven 自动扩缩器 (KEDA)
KEDA 指标服务器指标	请参阅 https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server。	否	Kubernetes Event-driven 自动扩缩器 (KEDA)

集群指标

使用这些指标可监控集群的整体运行状况和资源分配。

指标名称或类型	说明	是否默认启用？	指标来源
集群运行状况	Kubernetes API 服务器指标。请参阅https://kubernetes.io/docs/reference/instrumentation/metrics/。	是	Kubernetes
Kubestate	请参阅 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources。	有限	Kubernetes
KubeState 高级	请参阅 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources。	否	Kubernetes

实例指标

使用这些指标可监控单个实例的性能和运行状况。

指标名称或类型	说明	是否默认启用？	指标来源
节点指标	看见了https://github.com/prometheus/node_exporter吗？ tab=readme- ov-file #enabled 默认。	是	Kubernetes
容器指标	Cadvisor 公开的容器指标。请参阅https://github.com/google/cadvisor。	是	Kubernetes

加速计算指标

使用这些指标可监控集群中单个加速计算设备的性能、运行状况和利用率。

注意

在集群上启用使用 MIG (Multi-Instance GPU) 的 GPU 分区时，DCGM 指标会自动提供分区级别的粒度，用于监控单个 MIG 实例。每个 MIG 分区都作为单独的 GPU 设备公开，具有自己的温度、功耗、内存利用率和计算活动指标。这使您可以独立跟踪每个 GPU 分区的资源使用情况和运行状况，从而可以精确监控在部分 GPU 资源上运行的工作负载。有关配置 GPU 分区的更多信息，请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod。

指标名称或类型	说明	是否默认启用？	指标来源
NVIDIA GPU	DCGM 指标。请参阅https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv。	有限	NVIDIA Data Center GPU Manager（DCGM）
NVIDIA GPU（高级）	以下 CSV 文件中注释掉的 DCGM 指标： https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv	否	NVIDIA Data Center GPU Manager（DCGM）
Amazon Trainium	Neuron 指标。请参阅 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters。	否	Amazon 神经元监视器

网络指标

使用这些指标可监控集群中 Elastic Fabric Adapter（EFA）的性能和运行状况。

指标名称或类型	说明	是否默认启用？	指标来源
EFA	请参阅 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md。	否	Elastic Fabric Adapter

文件系统指标

指标名称或类型	说明	是否默认启用？	指标来源
文件系统	来自亚马逊的亚马逊 FSx for Lustre 指标： CloudWatch 使用 Amazon 进行监控 CloudWatch。	是	适用于 Lustre 的 Amazon FSx

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

自定义指标

预配置的警报