本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker HyperPod 集群指标
亚马逊 SageMaker HyperPod (SageMaker HyperPod) 向您的 Prometheus 亚马逊托管服务工作区发布了 9 个不同类别的各种指标。并非所有指标在默认情况下都是启用的,也并非所有指标都会显示在 Amazon Managed Grafana 工作区中。下表会显示在安装可观测性附加组件时默认启用的指标、包含可额外启用以获取更精细集群信息的指标的类别,以及这些指标在 Amazon Managed Grafana 工作区中的显示位置。
| 指标类别 | 是否默认启用? | 是否有其他可用的高级指标? | 在哪个 Grafana 控制面板可用? |
|---|---|---|---|
| 训练指标 | 支持 | 是 | 训练 |
| 推理指标 | 是 | 否 | 推理 |
| 任务治理指标 | 否 | 是 | 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。 |
| 扩展指标 | 否 | 是 | 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。 |
| 集群指标 | 支持 | 是 | Cluster |
| 实例指标 | 支持 | 是 | Cluster |
| 加速计算指标 | 支持 | 是 | 任务,集群 |
| 网络指标 | 否 | 是 | Cluster |
| 文件系统 | 是 | 否 | 文件系统 |
下表描述了可用于监控您的 SageMaker HyperPod 集群的指标,按类别排列。
训练指标
使用这些指标来跟踪在 SageMaker HyperPod 集群上执行的训练任务的性能。
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| Kubeflow 指标 | https://github.com/kubeflow/教练 |
是 | Kubeflow |
| Kubernetes 容器组(pod)指标 | https://github.com/kubernetes/kube-state-metrics |
是 | Kubernetes |
training_uptime_percentage |
总窗口时长中训练时长所占的百分比 | 否 | SageMaker HyperPod 培训操作员 |
training_manual_recovery_count |
已对作业执行的手动重启总次数 | 否 | SageMaker HyperPod 培训操作员 |
training_manual_downtime_ms |
因手动干预导致作业中断的总时长(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
training_auto_recovery_count |
自动恢复总次数 | 否 | SageMaker HyperPod 培训操作员 |
training_auto_recovery_downtime |
故障恢复期间基础设施的总开销时长(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
training_fault_count |
训练期间遇到的故障总数 | 否 | SageMaker HyperPod 培训操作员 |
training_fault_type_count |
按类型划分的故障分布 | 否 | SageMaker HyperPod 培训操作员 |
training_fault_recovery_time_ms |
每种类型的故障的恢复时间(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
training_time_ms |
实际训练所花费的总时长(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
推理指标
使用这些指标来跟踪集 SageMaker HyperPod 群上推理任务的性能。
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
model_invocations_total |
模型的调用请求总数 | 是 | SageMaker HyperPod 推理运算符 |
model_errors_total |
模型调用期间的错误总数 | 是 | SageMaker HyperPod 推理运算符 |
model_concurrent_requests |
活跃的并发模型请求数 | 是 | SageMaker HyperPod 推理运算符 |
model_latency_milliseconds |
模型调用延迟(以毫秒为单位) | 是 | SageMaker HyperPod 推理运算符 |
model_ttfb_milliseconds |
模型首字节时间延迟(以毫秒为单位) | 是 | SageMaker HyperPod 推理运算符 |
| TGI | 这些指标可用于监控 TGI 的性能、自动扩缩部署并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 |
是 | 模型容器 |
| LMI | 这些指标可用于监控 LMI 的性能并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 |
是 | 模型容器 |
任务治理指标
使用这些指标来监控 SageMaker HyperPod 集群上的任务管理和资源分配。
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| Kueue | 见 https://kueue.sigs.k8s。 io/docs/reference/metrics |
否 | Kueue |
扩展指标
使用这些指标来监控集群上的自动缩放行为和性能。 SageMaker HyperPod
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| KEDA 操作符指标 | 见 https://keda。 sh/docs/2.17/integrations/prometheus/#operator |
否 | Kubernetes 事件驱动型自动扩缩器(KEDA) |
| KEDA Webhook 指标 | 见 https://keda。 sh/docs/2.17/integrations/prometheus/#admission-webhooks |
否 | Kubernetes 事件驱动型自动扩缩器(KEDA) |
| KEDA 指标服务器指标 | 见 https://keda。 sh/docs/2.17/integrations/prometheus/#metrics-服务器。 |
否 | Kubernetes 事件驱动型自动扩缩器(KEDA) |
集群指标
使用这些指标可监控集群的整体运行状况和资源分配。
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| 集群运行状况 | Kubernetes API 服务器指标。见 https://kubernetes。 io/docs/reference/instrumentation/metrics |
是 | Kubernetes |
| Kubestate | 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
有限 | Kubernetes |
| KubeState 高级 | 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
否 | Kubernetes |
实例指标
使用这些指标可监控单个实例的性能和运行状况。
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| 节点指标 | 看见 https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default |
是 | Kubernetes |
| 容器指标 | Cadvisor 公开的容器指标。见 https://github.com/google/cadvisor |
是 | Kubernetes |
加速计算指标
使用这些指标可监控集群中单个加速计算设备的性能、运行状况和利用率。
注意
在集群上启用使用 MIG(多实例 GPU)的 GPU 分区时,DCGM 指标会自动提供分区级别的粒度,用于监控单个 MIG 实例。每个 MIG 分区都作为单独的 GPU 设备公开,具有自己的温度、功耗、内存利用率和计算活动指标。这使您可以独立跟踪每个 GPU 分区的资源使用情况和运行状况,从而可以精确监控在部分 GPU 资源上运行的工作负载。有关配置 GPU 分区的更多信息,请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod。
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| NVIDIA GPU | DCGM 指标。见 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
有限 |
NVIDIA Data Center GPU Manager(DCGM) |
|
NVIDIA GPU(高级) |
以下 CSV 文件中注释掉的 DCGM 指标: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp |
否 |
NVIDIA Data Center GPU Manager(DCGM) |
| AmazonTrainium | Neuron 指标。参见 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide .html#。neuron-monitor-nc-counters |
否 | Amazon神经元监视器 |
网络指标
使用这些指标可监控集群中 Elastic Fabric Adapter(EFA)的性能和运行状况。
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| EFA | 参见 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
否 | Elastic Fabric Adapter |
文件系统指标
| 指标名称或类型 | 说明 | 是否默认启用? | 指标来源 |
|---|---|---|---|
| 文件系统 | 来自亚马逊 FSx 的 Amazon for Lustre 指标: CloudWatch | 是 | 亚马逊 f FSx or Lustre |