监控 SageMaker HyperPod 集群资源 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 SageMaker HyperPod 集群资源

要实现 SageMaker HyperPod 集群资源和软件组件的全面可观察性,请将集群与适用于 Prometheus 的亚马逊托管服务和 Amazon M anaged Grafana 集成。通过与 Amazon Prometheus 托管服务的集成,可以导出与 HyperPod 您的集群资源相关的指标,从而深入了解其性能、利用率和运行状况。通过与 Amazon Managed Grafana 的集成,可以通过各种 Grafana 仪表板对这些指标进行可视化,这些仪表板为监控和分析集群的行为提供了直观的界面。通过利用这些服务,您可以获得 HyperPod 集群的集中统一视图,从而便于对分布式训练工作负载进行主动监控、故障排除和优化。

提示

要查找实际示例和解决方案,另请参阅SageMaker HyperPod研讨会

此架构图概述了如何使用适用于 Prometheus SageMaker HyperPod 的亚马逊托管服务和 Amazon Managed Grafana 进行配置。

继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。