基本运行状况检查 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

基本运行状况检查

SageMaker HyperPod 在创建和更新集群期间,对集群实例执行一 HyperPod 组基本的运行状况检查。这些基本的运行状况检查与协调器无关,因此无论支持的底层编排平台 SageMaker HyperPod (Amazon EKS 或 Slurm)如何,这些检查都适用。

基本运行状况检查可监控集群实例是否存在与加速器(GPU 和 Trainium 内核)和网络设备(Elastic Fabric Adapter 或 EFA)等设备相关的问题。要查找基本集群运行状况检查列表,请参阅集群运行状况检查