通过 训练模型Amazon SageMaker - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 训练模型Amazon SageMaker

下图介绍了您如何使用 Amazon SageMaker: 来训练和部署模型:

标记为 SageMaker 的区域突出显示 SageMaker 模型训练和模型部署这两个组件。

要在 SageMaker 中训练模型,请创建一个训练作业。该训练作业包含以下信息:

  • 存储训练数据的 Amazon Simple Storage Service (Amazon S3) 存储桶的 URL。

  • 您希望 SageMaker 用于模型训练的计算资源。计算资源是 托管的 ML 计算实例。SageMaker.

  • 您要存储作业输出的 S3 存储桶的 URL。

  • 存储训练代码的 Amazon Elastic Container Registry 路径。有关更多信息,请参阅SageMaker 内置算法的 Docker 注册表路径.

对于训练算法,您可以使用以下选项:

创建训练作业后,SageMaker 将启动 ML 计算实例,并使用训练代码和训练数据集来训练模型。它将生成的模型构件和其他输出保存在您为该目的指定的 S3 存储桶中。

您可使用 SageMaker 控制台或 API 创建训练作业。有关使用 API 创建训练作业的信息,请参阅 CreateTrainingJob API。

当您使用 API 创建训练作业时,默认情况下 SageMaker 复制 ML 计算实例上的整个数据集。要使 SageMaker 复制每个 ML 计算实例上的数据子集,您必须将 S3DataDistributionType 字段设置为 ShardedByS3Key。 您可以使用低级开发工具包设置此字段。有关更多信息,请参阅 S3DataDistributionType 中的 S3DataSource

重要

为了防止算法容器争用内存,我们在 ML 计算实例上为SageMaker关键系统进程预留内存,因此您无法看到实例类型的所有内存。