在 Amazon Batch 中创建 SageMaker 训练作业队列 - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Batch 中创建 SageMaker 训练作业队列

SageMaker 训练作业队列直接与 SageMaker AI 服务集成,无需管理底层计算基础设施,即可提供无服务器作业调度。

先决条件

在创建 SageMaker 训练作业队列之前,确保您已满足如下前提条件:

Create a SageMaker Training job queue (Amazon Batch console)
  1. 打开Amazon Batch控制台,地址:https://console.aws.amazon.com/batch/

  2. 在导航窗格中,选择作业队列创建

  3. 对于编排类型,选择 SageMaker 训练

  4. 对于作业队列配置

    1. 对于名称,输入该作业队列的名称。

    2. 对于优先级,输入一个介于 0 到 1000 之间的值。服务环境会优先处理优先级较高的作业队列。

    3. (可选)对于计划策略 Amazon 资源名称(ARN),请选择现有的计划策略。

    4. 对于已连接的服务环境,从列表中选择一个要关联到该作业队列的服务环境。

  5. (可选)对于 作业状态限制

    1. 对于配置错误,选择 SERVICE_ENVIRONMENT_MAX_RESOURCE 并输入最大可运行时间(秒)

    2. 对于容量,选择 INSUFFICIENT_INSTANCE_CAPACITY 并输入最大可运行时间(秒)

  6. 选择创建作业队列

Create a SageMaker Training job queue (Amazon CLI)

使用 create-job-queue 命令创建 SageMaker 训练作业队列。

以下示例会创建一个使用服务环境的基本 SageMaker 训练作业队列:

aws batch create-job-queue \ --job-queue-name my-sm-training-fifo-jq \ --job-queue-type SAGEMAKER_TRAINING \ --priority 1 \ --service-environment-order order=1,serviceEnvironment=ExampleServiceEnvironment

ExampleServiceEnvironment 替换为服务环境的名称。

该命令返回的输出类似于下方内容:

{ "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq" }

创建作业队列后,请验证该队列是否已成功创建且处于有效状态。

使用 describe-job-queues 命令查看有关作业队列的详细信息:

aws batch describe-job-queues --job-queues my-sm-training-fifo-jq

该命令返回的输出类似于下方内容:

{ "jobQueues": [ { "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq", "state": "ENABLED", "status": "VALID", "statusReason": "JobQueue Healthy", "priority": 1, "computeEnvironmentOrder": [], "serviceEnvironmentOrder": [ { "order": 1, "serviceEnvironment": "arn:aws:batch:region:account:service-environment/ExampleServiceEnvironment" } ], "jobQueueType": "SAGEMAKER_TRAINING", "tags": {}, "jobStateTimeLimitActions": [] } ] }

请确保:

  • stateENABLED

  • statusVALID

  • statusReasonJobQueue Healthy

  • jobQueueTypeSAGEMAKER_TRAINING

  • serviceEnvironmentOrder 会引用您的服务环境