查看作业队列状态 - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

查看作业队列状态

创建作业队列并提交作业后,能够监控其进度非常重要。您可以使用作业详细信息页面来查看、管理和监控您的作业队列。

查看作业队列信息

在 Amazon Batch 控制台中,在导航窗格中选择 J ob queues,然后选择所需的任务队列以查看其详细信息。在此页面上,您可以查看和管理您的作业队列并查看有关队列操作的其他信息,例如作业队列快照、作业状态限制、环境顺序、标签和作业队列的 JSON 代码。

作业队列详细信息

本部分提供了作业队列概述和维护选项。值得注意的是,您可以在本部分中找到 Amazon 资源名称(ARN)。

要通过查找此信息 Amazon Command Line Interface,请使用DescribeJobQueues操作以及任务队列名称或相应的 ARN。

作业队列快照

本节提供队列中前 100 个 RUNNABLE 作业的静态列表。您可以使用搜索字段通过搜索结果部分任意列中的信息来缩小列表范围。快照结果区域中的作业根据作业队列的运行策略排序。对于 first-in-first-out (FIFO) 任务队列,作业的排序基于提交时间。对于公平共享调度任务队列,作业的排序基于作业优先级和份额使用情况。

由于结果是作业队列的快照,因此结果列表不会自动更新。要更新列表,请选择该部分顶部的刷新。选择作业的名称超链接可导航至任务详细信息并查看该作业的状态以及其他相关信息。

要通过查找此信息 Amazon CLI,请使用GetJobQueueSnapshot操作以及任务队列名称或相应的 ARN。

aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq

作业状态限制

使用此选项卡可以查看有关作业在取消之前可以保持 RUNNABLE 状态的时间的配置信息。

要通过查找此信息 Amazon CLI,请使用DescribeJobQueues操作以及任务队列名称或相应的 ARN。

环境顺序

如果您的作业队列在多个环境中运行,则此选项卡会提供它们的顺序和概述。

要通过查找此信息 Amazon CLI,请使用DescribeJobQueues操作以及任务队列名称或相应的 ARN。

标签

使用此选项卡查看和管理与此作业队列关联的标签。

JSON

使用此选项卡复制与此作业队列关联的 JSON 代码。然后,您可以将 JSON 重复用于 Amazon CloudFormation 模板和 Amazon CLI 脚本。

监控服务作业

您可以使用多个 Amazon Batch 命令监控任务队列中服务作业的状态。服务作业是在诸如 SageMaker 训练之类的 Amazon 服务上运行的作业,其中 Amazon Batch 提供调度和排队功能,而目标服务则处理作业执行。

按状态列出服务作业

使用该ListServiceJobs操作查看队列中按状态筛选的服务作业。服务作业可以具有以下状态:

  • SUBMITTED-Job 已提交但尚未处理

  • PENDING-Job 处于待处理状态,正在等待资源

  • RUNNABLE-Job 已准备好运行,正在队列中等待

  • STARTING-Job 正在启动

  • RUNNING-Job 当前正在运行

  • SCHEDULED-Job 已提交到目标服务,但尚未运行

  • SUCCEEDED-Job 已成功完成

  • FAILED-Job 未能完成

查看队列中正在运行的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING

查看队列中等待的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNABLE

查看已提交 SageMaker 但尚未运行的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SCHEDULED

查看所有成功的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SUCCEEDED

查看失败的作业以进行故障排除:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status FAILED

筛选服务作业

您可以使用模式匹配按名称筛选服务作业。如果筛选器值以星号 (*) 结尾,则它将匹配任何以 “*” 之前的字符串开头的作业名称。

查找名字以 “培训” 开头的工作:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --filters name=JOB_NAME,values=training*

查找具有特定名称的职位:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --filters name=JOB_NAME,values=my-training-job-1,my-training-job-2

合并状态和名称筛选器:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING \ --filters name=JOB_NAME,values=production*

处理大型结果集

当你有许多服务任务时,请使用分页来有效地管理结果。

限制返回的结果数量:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --max-results 10

使用下一个标记来获得更多结果:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --max-results 10 \ --next-token eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...

获取详细的服务工作信息

使用该DescribeServiceJob操作可以获取有关特定服务作业的全面信息,包括其当前状态、服务资源标识符和详细的尝试信息。

查看有关特定任务的详细信息:

aws batch describe-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d

此命令返回有关任务的全面信息,包括:

  • Job ARN 和当前状态

  • 服务资源标识符(例如 SageMaker 训练作业 ARN)

  • 调度优先级和重试配置

  • 包含原始服务参数的服务请求负载

  • 详细的尝试信息,包括开始和停止时间

  • 来自目标服务的状态消息

监控 SageMaker 培训作业

通过监控 SageMaker 训练作业时 Amazon Batch,您可以访问 Amazon Batch 作业信息和基础 SageMaker 培训作业详细信息。

任务详情中的服务资源标识符包含 SageMaker 训练作业 ARN:

{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }

您可以使用此 ARN 直接从以下地址获取更多详情: SageMaker

aws sagemaker describe-training-job \ --training-job-name my-training-job

通过检查 Amazon Batch 状态和 SageMaker 训练作业状态来监控作业进度。 Amazon Batch 作业状态显示整个作业生命周期,而 SageMaker 训练作业状态则提供有关训练过程的特定于服务的详细信息。

终止服务作业

使用该TerminateServiceJob操作停止正在运行的服务作业。

终止特定的服务作业:

aws batch terminate-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d \ --reason "Job terminated by user request"

当您终止服务作业时,会 Amazon Batch 停止该任务并通知目标服务。对于 SageMaker 训练作业,这也将停止 SageMaker AI 中的训练作业。