在中创建 SageMaker 训练作业队列 Amazon Batch - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在中创建 SageMaker 训练作业队列 Amazon Batch

SageMaker 训练作业队列直接与 SageMaker AI 服务集成,无需管理底层计算基础架构,即可提供无服务器作业调度。

先决条件

在创建 SageMaker 训练作业队列之前,请确保:

Create a SageMaker Training job queue (Amazon Batch console)
  1. 打开 Amazon Batch 控制台,网址为https://console.aws.amazon.com/batch/

  2. 在导航窗格中,选择 Job 队列创建

  3. 对于编排类型,请选择SageMaker 训练

  4. 对于 Job 队列配置

    1. 在 “名称” 中,输入 Job 队列的名称。

    2. 在 “优先级” 中,输入一个介于 0 和 1000 之间的值。优先级较高的 Job 队列优先于服务环境。

    3. (可选)对于计划策略 Amazon 资源名称(ARN),请选择现有的计划策略。

    4. 对于连接的服务环境,请从列表中选择要与作业队列关联的服务环境。

  5. (可选)对于 Job 状态限制

    1. 对于配置错误,请选择SERVICE_ENVIRONMENT_MAX_RESOURCE并输入最大可运行时间(秒)。

    2. 在 “容量” 中,选择INSUFFICIENT_INSTANCE_CAPACITY并输入最大可运行时间(秒)

  6. 选择创建作业队列

Create a SageMaker Training job queue (Amazon CLI)

使用create-job-queue命令创建 SageMaker 训练作业队列。

以下示例创建了一个使用服务环境的基本 SageMaker 训练作业队列:

aws batch create-job-queue \ --job-queue-name my-sm-training-fifo-jq \ --job-queue-type SAGEMAKER_TRAINING \ --priority 1 \ --service-environment-order order=1,serviceEnvironment=ExampleServiceEnvironment

ExampleServiceEnvironment替换为服务环境的名称。

该命令返回的输出类似于下方内容:

{ "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq" }

创建任务队列后,请验证该队列是否已成功创建且处于有效状态。

使用describe-job-queues命令查看有关您的任务队列的详细信息:

aws batch describe-job-queues --job-queues my-sm-training-fifo-jq

该命令返回的输出类似于下方内容:

{ "jobQueues": [ { "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq", "state": "ENABLED", "status": "VALID", "statusReason": "JobQueue Healthy", "priority": 1, "computeEnvironmentOrder": [], "serviceEnvironmentOrder": [ { "order": 1, "serviceEnvironment": "arn:aws:batch:region:account:service-environment/ExampleServiceEnvironment" } ], "jobQueueType": "SAGEMAKER_TRAINING", "tags": {}, "jobStateTimeLimitActions": [] } ] }

请确保:

  • stateENABLED

  • statusVALID

  • statusReasonJobQueue Healthy

  • jobQueueTypeSAGEMAKER_TRAINING

  • 它们serviceEnvironmentOrder引用了你的服务环境