将 Amazon Batch 服务作业状态映射到 SageMaker AI 状态 - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 Amazon Batch 服务作业状态映射到 SageMaker AI 状态

使用向 SageMaker 作业队列提交作业时 SubmitServiceJob,会 Amazon Batch 管理作业生命周期并将 Amazon Batch 作业状态映射到等效的 SageMaker 训练作业状态。服务作业(例如 SageMaker 训练作业)遵循的状态生命周期与传统的容器作业不同。虽然服务作业与容器作业共享大多数状态,但它们会引入SCHEDULED状态并表现出不同的重试行为,尤其是在处理来自目标服务的容量不足错误时。

下表显示了 Amazon Batch 作业状态和相应的 SageMaker状态/SecondaryStatus:

Batch 状态 SageMaker AI 主要状态 SageMaker AI 二级状态 描述
SUBMITTED 不适用 不适用 Job 已提交到队列,等待调度器评估。
RUNNABLE 不适用 不适用 Job 已排队,可以进行调度了。只要服务环境中有足够的可用资源,就会启动处于这种状态的作业。当没有足够的资源时,作业可以无限期地保持这种状态。
SCHEDULED InProgress Pending 服务作业已成功提交给 SageMaker AI
STARTING InProgress Downloading SageMaker 下载数据和图像的训练作业。培训工作能力已获得,作业初始化已开始。
RUNNING InProgress Training SageMaker 训练作业执行算法
RUNNING InProgress Uploading SageMaker 训练作业在训练完成后上传输出工件
SUCCEEDED Completed Completed SageMaker 训练作业已成功完成。输出构件已完成上传。
FAILED Failed Failed SageMaker 训练作业遇到了一个不可恢复的错误。
FAILED Stopped Stopped SageMaker 已使用手动停止训练作业StopTrainingJob