支持的框架、Amazon Web Services 区域和实例类型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

支持的框架、Amazon Web Services 区域和实例类型

在使用 SageMaker 数据并行性库之前,请检查您的 Amazon 账户和 Amazon Web Services 区域中支持的 ML 框架和实例类型,以及您是否有足够的配额。

支持的框架

下表显示了 SageMaker 和 SageMaker 数据并行性库支持的深度学习框架及其版本。SageMaker 模型并行性库可在 Amazon Deep Learning Containers (DLC) 中使用,也可以作为二进制文件下载。

注意

要查看库的最新更新和发行说明,另请参阅 SageMaker Python SDK 文档中的 SageMaker 数据并行发行说明

PyTorch

PyTorch 版本 SageMaker 数据并行性库版本 smdistributed-dataparallel 集成映像 URI 二进制文件的 URL**
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-dataparallel==v1.4.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.10.2/cu113/2022-02-18/smdistributed_dataparallel-1.4.0-cp38-cp38-linux_x86_64.whl
v1.9.1 smdistributed-dataparallel==v1.2.0

763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.9.0/cu111/2021-08-13/smdistributed_dataparallel-1.2.0-cp38-cp38-linux_x86_64.whl
v1.8.1 smdistributed-dataparallel==v1.2.3 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.8.1/cu111/2021-12-13/smdistributed_dataparallel-1.2.3-cp36-cp36m-linux_x86_64.whl
v1.7.1 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.7.1-gpu-py36-cu110-ubuntu18.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.7.1/cu110/2021-01-26/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl
v1.6.0 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.6.0-gpu-py36-cu110-ubuntu18.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.6.0/cu110/2021-01-14/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl
注意

SageMaker 数据并行性库 v1.4.0 及更高版本可用作 PyTorch 分布式的后端。由于变更,PyTorch 分布式软件包的以下 smdistributed API 已弃用。

如果您需要使用该库的早期版本(v1.3.0 或更早版本),请参阅 SageMaker Python SDK 文档中的已存档 SageMaker 数据并行性库文档

** 二进制文件的 URL 用于在自定义容器中安装 SageMaker 数据并行性库。有关更多信息,请参阅 使用 SageMaker 分布式数据并行库创建您自己的 Docker 容器

PyTorch Lightning

PyTorch Lightning 版本 PyTorch 版本 SageMaker 数据并行性库版本 smdistributed-dataparallel 集成映像 URI 二进制文件的 URL**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
注意

PyTorch DLC 中未预安装 PyTorch Lightning 及其实用程序库(例如 Lightning Bolts)。当您在步骤 2 中构造 SageMaker PyTorch 估算器并提交训练作业请求时,您需要在 SageMaker PyTorch 训练容器中提供 requirements.txt 以安装 pytorch-lightninglightning-bolts

# requirements.txt pytorch-lightning lightning-bolts

有关指定放置 requirements.txt 文件以及训练脚本和作业提交的源目录的更多信息,请参阅 Amazon SageMaker Python SDK 文档中的使用第三方库

TensorFlow

TensorFlow 版本 SageMaker 数据并行性库版本 smdistributed-dataparallel 集成映像 URI
2.9.1 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker
2.8.0 smdistributed-dataparallel==v1.3.0 763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.8.0-gpu-py39-cu112-ubuntu20.04-sagemaker
2.7.1 smdistributed-dataparallel==v1.3.0

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.7.1-gpu-py38-cu112-ubuntu20.04-sagemaker

2.6.2 smdistributed-dataparallel==v1.2.1

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.6.2-gpu-py38-cu112-ubuntu20.04

2.5.1 smdistributed-dataparallel==v1.2.1

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-inference:2.5.1-gpu-py37-cu112-ubuntu18.04

2.4.1 smdistributed-dataparallel==v1.2.0

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04

2.3.2 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<区域>.amazonaws.com/tensorflow-training:2.3.2-gpu-py37-cu110-ubuntu18.04

Hugging Face Transformers

适用于 Hugging Face 的 Amazon Deep Learning Containers 使用适用于 PyTorch 和 TensorFlow 的 SageMaker 训练容器作为其基础映像。要查找 Hugging Face Transformers 库版本以及可以结合使用的 PyTorch 和 TensorFlow 版本,请参阅最新的 Hugging Face 容器以前的 Hugging Face 容器版本

Amazon Web Services 区域

在提供适用于 SageMaker 的 Amazon Deep Learning Containers 的所有 Amazon Web Services 区域中,均可使用 SageMaker 数据并行性库。有关更多信息,请参阅可用的深度学习容器映像

支持的实例类型

SageMaker 数据并行性库需要以下 ML 实例类型之一。

实例类型
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

有关实例类型的规格,请参阅 Amazon EC2 实例类型页面中的加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker 定价

在遇到类似于以下内容的错误消息时,请按照请求提高 SageMaker 资源的服务限额中的说明操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.