Health 监控代理 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Health 监控代理

本节介绍了一组运行状况检查,这些 SageMaker HyperPod 检查用于定期监控集群实例的运行状况,以发现加速器(GPU 和 Trainium 内核)和网络 (EFA) 等设备存在问题。 SageMaker HyperPod 运行状况监控代理 (HMA) 持续监控每个基于 GPU 或 Trainium 的实例的运行状况。当检测到任何实例或 GPU 故障时,座席会将实例标记为运行状况不佳。

SageMaker HyperPod HMA 对 EKS 和 Slurm 协调器执行相同的运行状况检查。有关 HMA 的更多信息,请参阅Health 监控系统