使用 SageMaker AI 通用估算器扩展预构建的 DLC 容器 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker AI 通用估算器扩展预构建的 DLC 容器

您可以自定义 SageMaker AI 预构建容器或扩展这些容器,以满足您的算法或模型提出的、但预构建 SageMaker AI Docker 映像不支持的任何额外的功能要求。有关如何扩展预构建容器的示例,请参阅扩展预构建容器

要扩展预构建的容器或调整您自己的容器以使用该库,您必须使用支持的框架中列出的映像之一。

注意

从 TensorFlow 2.4.1 和 PyTorch 1.8.1 开始,SageMaker AI 框架 DLC 支持启用 EFA 的实例类型。我们建议您使用包含 TensorFlow 2.4.1 或更高版本以及 PyTorch 1.8.1 或更高版本的 DLC 映像。

例如,如果您使用 PyTorch,则 Dockerfile 应该包含类似于以下内容的 FROM 语句:

# SageMaker AI PyTorch image FROM 763104351884.dkr.ecr.<aws-region>.amazonaws.com/pytorch-training:<image-tag> ENV PATH="/opt/ml/code:${PATH}" # this environment variable is used by the SageMaker AI PyTorch container to determine our user code directory. ENV SAGEMAKER_SUBMIT_DIRECTORY /opt/ml/code # /opt/ml and all subdirectories are utilized by SageMaker AI, use the /code subdirectory to store your user code. COPY train.py /opt/ml/code/train.py # Defines cifar10.py as script entrypoint ENV SAGEMAKER_PROGRAM train.py

您可以使用 SageMaker 训练工具包和 SageMaker AI 分布式数据并行库的二进制文件,进一步自定义自己的 Docker 容器,使其与 SageMaker AI 配合使用。要了解更多信息,请参阅以下部分中的说明。