将 Amazon Batch 服务作业状态映射到 SageMaker AI 状态 - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 Amazon Batch 服务作业状态映射到 SageMaker AI 状态

使用向 SageMaker 作业队列提交作业时 SubmitServiceJob,会 Amazon Batch 管理作业生命周期并将 Amazon Batch 作业状态映射到等效的 SageMaker 训练作业状态。服务作业(例如 SageMaker 训练作业)遵循的状态生命周期与传统的容器作业不同。服务作业的大多数状态与容器作业相同,不过服务作业引入了 SCHEDULED 状态并具有不同的重试行为,尤其是在处理目标服务容量不足错误时。

下表显示了 Amazon Batch 作业状态和相应的 SageMaker状态/SecondaryStatus:

Batch 状态 SageMaker AI 主要状态 SageMaker AI 二级状态 说明
SUBMITTED 不适用 不适用 作业已提交到队列,等待调度器评估。
RUNNABLE 不适用 不适用 作业已排队,可以进行调度。一旦服务环境中有足够的资源可用,处于此状态的作业就会立即启动。如果没有足够的资源可用,作业会无限期地保持此状态。
SCHEDULED InProgress Pending 服务作业已成功提交给 SageMaker AI
STARTING InProgress Downloading SageMaker 下载数据和图像的训练作业。已取得训练作业容量,并且已开始作业初始化。
RUNNING InProgress Training SageMaker 训练作业执行算法
RUNNING InProgress Uploading SageMaker 训练作业在训练完成后上传输出工件
SUCCEEDED Completed Completed SageMaker 训练作业已成功完成。已完成输出构件上传。
FAILED Failed Failed SageMaker 训练作业遇到了一个不可恢复的错误。
FAILED Stopped Stopped SageMaker 已使用手动停止训练作业StopTrainingJob