本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将 Amazon Batch 服务作业状态映射到 SageMaker AI 状态
使用向 SageMaker 作业队列提交作业时 SubmitServiceJob,会 Amazon Batch 管理作业生命周期并将 Amazon Batch 作业状态映射到等效的 SageMaker 训练作业状态。服务作业(例如 SageMaker 训练作业)遵循的状态生命周期与传统的容器作业不同。虽然服务作业与容器作业共享大多数状态,但它们会引入SCHEDULED
状态并表现出不同的重试行为,尤其是在处理来自目标服务的容量不足错误时。
下表显示了 Amazon Batch 作业状态和相应的 SageMaker状态/SecondaryStatus:
Batch 状态 | SageMaker AI 主要状态 | SageMaker AI 二级状态 | 描述 |
---|---|---|---|
SUBMITTED |
不适用 | 不适用 | Job 已提交到队列,等待调度器评估。 |
RUNNABLE |
不适用 | 不适用 | Job 已排队,可以进行调度了。只要服务环境中有足够的可用资源,就会启动处于这种状态的作业。当没有足够的资源时,作业可以无限期地保持这种状态。 |
SCHEDULED |
InProgress |
Pending |
服务作业已成功提交给 SageMaker AI |
STARTING |
InProgress |
Downloading |
SageMaker 下载数据和图像的训练作业。培训工作能力已获得,作业初始化已开始。 |
RUNNING |
InProgress |
Training |
SageMaker 训练作业执行算法 |
RUNNING |
InProgress |
Uploading |
SageMaker 训练作业在训练完成后上传输出工件 |
SUCCEEDED |
Completed |
Completed |
SageMaker 训练作业已成功完成。输出构件已完成上传。 |
FAILED |
Failed |
Failed |
SageMaker 训练作业遇到了一个不可恢复的错误。 |
FAILED |
Stopped |
Stopped |
SageMaker 已使用手动停止训练作业StopTrainingJob 。 |