本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Health 监控代理
本节介绍了一组运行状况检查,这些 SageMaker HyperPod 检查用于定期监控集群实例的运行状况,以发现加速器(GPU 和 Trainium 内核)和网络 (EFA) 等设备存在问题。 SageMaker HyperPod 运行状况监控代理 (HMA) 持续监控每个基于 GPU 或 Trainium 的实例的运行状况。当检测到任何实例或 GPU 故障时,座席会将实例标记为运行状况不佳。
SageMaker HyperPod HMA 对 EKS 和 Slurm 协调器执行相同的运行状况检查。有关 HMA 的更多信息,请参阅Health 监控系统。