使用 Amazon SageMaker 训练模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker 训练模型

下图介绍了您如何训练和部署模型。使用 Amazon SageMaker:

标记为 SageMaker 的区域突出显示 SageMaker 两个组件:模型训练和模型部署。

要在 SageMaker 中训练模型,请创建一个训练任务。该训练作业包含以下信息:

  • 存储训练数据的 Amazon Simple Storage Service (Amazon S3) 存储桶的 URL。

  • 您希望 SageMaker 用于模型训练的计算资源。计算资源是 SageMaker 托管的 ML 计算实例。

  • 您要存储作业输出的 S3 存储桶的 URL。

  • 存储训练代码的 Amazon Elastic 容器注册表路径。有关更多信息,请参阅 Docker 注册表路径和示例代码

对于训练算法,您可以使用以下选项:

创建训练任务后,SageMaker 将启动 ML 计算实例,并使用训练代码和训练数据集来训练模型。它将生成的模型构件和其他输出保存在您为该目的指定的 S3 存储桶中。

您可使用 SageMaker 控制台或 API 创建训练任务。有关使用 API 创建训练作业的信息,请参阅 CreateTrainingJob API。

当您使用 API 创建训练任务时,默认情况下,SageMaker 会在 ML 计算实例上复制整个数据集。要使 SageMaker 复制各个 ML 计算实例上的数据子集,您必须将S3DataDistributionType字段中返回ShardedByS3Key. 您可以使用低级开发工具包设置此字段。有关更多信息,请参阅 S3DataSource 中的 S3DataDistributionType

重要

为了防止您的算法容器争用内存,我们为 ML 计算实例上的 SageMaker 关键系统进程预留内存,因此您不能期望看到您的实例类型的所有内存。