Amazon Batch支持 A SageMaker I 训练作业 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Batch支持 A SageMaker I 训练作业

Amazon Batch 作业队列会在提交的作业在计算资源上运行之前,对其进行存储并确定优先级。您可以将 SageMaker AI 训练作业提交到作业队列,以便利用提供的无服务器作业计划和优先级划分工具。Amazon Batch

工作原理

以下步骤描述了如何将Amazon Batch作业队列与 SageMaker AI 训练作业配合使用的工作流程。有关更详细的教程和示例笔记本,请参阅开始使用部分。

  • 设置Amazon Batch和任何必要的权限。有关更多信息,请参阅《Amazon Batch 用户指南》中的设置 Amazon Batch

  • 在控制台中或使用创建以下Amazon Batch资源Amazon CLI:

  • 配置您的详细信息并请求 A SageMaker I 训练作业,例如您的训练容器镜像。要向Amazon Batch队列提交训练作业,你可以使用适用于 Python (Boto3) 的 Amazon SDK、或 SageMaker AI Python SDK。Amazon CLI

  • 将训练作业提交到作业队列。您可以使用以下选项来提交作业:

    • 使用 Amazon BatchSubmitServiceJob API。

    • 使用 SageMaker AI Python 软件开发工具包中的aws_batch模块。创建 TrainingQueue 对象和模型训练对象(例如 Estimator 或 ModelTrainer)后,您可以使用 TrainingQueue 方法向提交训练作业。queue.submit()

  • 提交作业后,使用Amazon Batch控制台、API 或 SageMaker A Amazon Batch DescribeServiceJobDescribeTrainingJobI API 查看您的任务队列和任务状态。

成本和可用性

有关训练作业的详细定价信息,请参阅 Amazon A SageMaker I 定价。使用Amazon Batch,您只需为使用的任何Amazon资源(例如 Amazon EC2 实例)付费。有关更多信息,请参阅Amazon Batch 定价

您可以在任何有训练作业Amazon Web Services 区域的地方用Amazon Batch于 SageMaker AI 训练作业。有关更多信息,请参阅 Amazon A SageMaker I 终端节点和配额

为了确保在需要时拥有所需的容量,您可以使用 SageMaker AI 灵活训练计划 (FTP)。这些计划可让您为训练作业预留容量。与Amazon Batch的排队功能结合使用时,您可以在计划有效期内最大限度地提高利用率。有关更多信息,请参阅为您预留训练任务或 HyperPod 集群的训练计划

开始使用

有关如何设置Amazon Batch作业队列和提交 SageMaker AI 训练作业的教程,请参阅Amazon Batch用户指南中的 SageMaker AI 入门。Amazon Batch

有关展示如何在 AI Py SageMaker thon SDK 中使用该aws_batch模块的 Jupyter 笔记本,请参阅存储库Amazon Batch中的 SageMaker AI Training 作业笔记本示例。 amazon-sagemaker-examples GitHub