集群修复 GPU 错误 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

集群修复 GPU 错误

如果您在 GPU 上运行的训练作业失败, SageMaker AI 将运行 GPU 运行状况检查,以查看故障是否与 GPU 问题有关。 SageMaker AI 会根据运行状况检查结果采取以下操作:

  • 如果错误可以恢复,并且可以通过重启实例或重置 GPU 来修复,则 SageMaker AI 将重启该实例。

  • 如果错误无法恢复,并且是由需要更换的 GPU 引起的,则 SageMaker AI 将替换该实例。

作为 SageMaker AI 集群修复过程的一部分,实例要么被替换,要么重新启动。在此过程中,您将在训练作业状态中看到以下信息:

Repairing training cluster due to hardware failure

SageMaker AI 最多会尝试修复集10群。如果集群修复成功, SageMaker AI 将自动从上一个检查点重新启动训练作业。如果集群修复失败,训练作业也将失败。集群修复过程不收取费用。除非训练作业失败,否则不会启动集群修复。如果检测到暖池集群的 GPU 出现问题,集群将进入修复模式,重启或更换故障实例。修复后,集群仍可用作暖池集群。

下图描述了之前描述的集群和实例修复过程:

The cluster and instance repair process.