由亚马逊 EKS 精心策划的亚马逊 SageMaker HyperPod 集群的可观察性

要全面观察您的亚马逊 SageMaker HyperPod (SageMaker HyperPod) 集群资源和软件组件，请将集群与 Amazon Container Insights、适用于 Prometheus 的亚马逊托管服务和亚马逊托管 Grafana CloudWatch 集成。这些工具可让您清晰了解集群运行状况、性能指标和资源利用率。

通过与 Amazon Prometheus 托管服务的集成，可以导出与 HyperPod您的集群资源相关的指标，从而深入了解其性能、利用率和运行状况。与 Amazon Managed Grafana 集成后，可以通过各种 Grafana 控制面板实现这些指标的可视化，为监控和分析集群行为提供直观的界面。通过利用这些服务，您可以获得 HyperPod 集群的集中统一视图，从而便于对分布式训练工作负载进行主动监控、故障排除和优化。

注意

虽然 CloudWatch适用于 Prometheus 的亚马逊托管服务和 Amazon Managed Grafana 侧重于运营指标（例如系统运行状况、培训作业绩效 SageMaker HyperPod ），但使用报告补充了任务治理，提供了财务和资源责任见解。这些报告跟踪：

计算利用率 (GPU/CPU/Neuron Core hours) across namespaces/teams
已分配资源与已借入资源的成本归属
用于审计和优化的历史趋势（最长 180 天）

有关设置和生成使用情况报告的更多信息，请参阅中的报告计算使用情况 HyperPod。

提示

要查找实际示例和解决方案，另请参阅 Amazon EKS Support SageMaker HyperPod 研讨会中的可观察性部分。

继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

弹性训练

模型可观测性