监控 Amazon Batch 队列中的服务作业 - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 Amazon Batch 队列中的服务作业

您可以使用和监控 SageMaker 训练作业队列中作业的状态get-job-queue-snapshotlist-service-jobs

查看队列中正在运行的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING

查看队列中正在等待的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNABLE

查看已提交 SageMaker 但尚未运行的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SCHEDULED

获取队列中排名最前的作业快照:

aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq

此命令会显示队列中即将执行的服务作业的顺序。

获取详细的服务作业信息

使用 DescribeServiceJob 操作可以获取有关特定服务作业的全面信息,包括其当前状态、服务资源标识符和详细尝试信息。

查看有关特定作业的详细信息:

aws batch describe-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d

此命令会返回有关此作业的全面信息,包括:

  • 作业 ARN 和当前状态

  • 服务资源标识符(例如 SageMaker 训练作业 ARN)

  • 调度优先级和重试配置

  • 包含原始服务参数的服务请求有效载荷

  • 详细尝试信息,包括启动和停止时间

  • 来自目标服务的状态消息

监控 SageMaker 培训作业

通过监控 SageMaker 训练作业时 Amazon Batch,您可以访问 Amazon Batch 作业信息和基础 SageMaker 培训作业详细信息。

任务详情中的服务资源标识符包含 SageMaker 训练作业 ARN:

{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }

您可以使用此 ARN 直接从以下地址获取更多详情: SageMaker

aws sagemaker describe-training-job \ --training-job-name my-training-job

通过检查 Amazon Batch 状态和 SageMaker 训练作业状态来监控作业进度。 Amazon Batch 作业状态显示整个作业生命周期,而 SageMaker 训练作业状态则提供有关训练过程的特定于服务的详细信息。