基本运行状况检查 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

基本运行状况检查

SageMaker HyperPod 在创建和更新集群期间,对集群实例执行一 HyperPod 组基本的运行状况检查。这些基本的运行状况检查与协调器无关,因此无论支持哪种底层编排平台(Amazon 或 Slurm),这些检查都适用。 SageMaker HyperPod EKS

基本运行状况检查可监控集群实例是否存在与加速器(GPU和 Trainium 内核)和网络设备(Elastic Fabric Adapter 或)等设备相关的问题。EFA要查找基本集群运行状况检查列表,请参阅集群运行状况检查