由 Amazon EK SageMaker HyperPod S 编排的集群的可观察性 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

由 Amazon EK SageMaker HyperPod S 编排的集群的可观察性

要实现 SageMaker HyperPod 集群资源和软件组件的全面可观察性,请将集群与 A CloudWatch mazon Container Insights适用于 Prometheus 的亚马逊托管服务和亚马逊托管 Grafana 集成。

通过与 Amazon Prometheus 托管服务的集成,可以导出与 HyperPod您的集群资源相关的指标,从而深入了解其性能、利用率和运行状况。与 Amazon Managed Grafana 集成后,可以通过各种 Grafana 控制面板实现这些指标的可视化,为监控和分析集群行为提供直观的界面。通过利用这些服务,您可以获得 HyperPod 集群的集中统一视图,从而便于对分布式训练工作负载进行主动监控、故障排除和优化。

提示

要查找实际示例和解决方案,另请参阅 Amazon EKS Support SageMaker HyperPod 研讨会中的可观察性部分。

继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。