自动节点恢复 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动节点恢复

在集群创建或更新期间,集群管理员用户可在集群级别的 Automatic(推荐)和 None 之间选择节点(实例)恢复选项。如果设置为Automatic,则 SageMaker HyperPod 自动重启或更换故障节点。

重要

我们建议设置 Automatic 选项。

当从运行状况监控座席、基本运行状况检查和深度运行状况检查中发现问题时,自动运行节点恢复。如果设置为 None,运行状况监控座席将在检测到故障时对实例进行标记,但不会在受影响的节点上自动启动任何修复或恢复操作。不建议使用该选项。