支持的框架、Amazon Web Services 区域和实例类型
在使用 SageMaker 数据并行性库之前,请检查您的 Amazon 账户和 Amazon Web Services 区域中支持的 ML 框架和实例类型,以及您是否有足够的配额。
支持的框架
下表显示了 SageMaker 和 SageMaker 数据并行性库支持的深度学习框架及其版本。SageMaker 模型并行性库可在 Amazon Deep Learning Containers (DLC) 中使用,也可以作为二进制文件下载。
注意
要查看库的最新更新和发行说明,另请参阅 SageMaker Python SDK 文档
PyTorch
PyTorch 版本 | SageMaker 数据并行性库版本 | smdistributed-dataparallel 集成映像 URI |
二进制文件的 URL** |
---|---|---|---|
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
v1.10.2 |
smdistributed-dataparallel==v1.4.0 |
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.10.2/cu113/2022-02-18/smdistributed_dataparallel-1.4.0-cp38-cp38-linux_x86_64.whl |
v1.9.1 |
smdistributed-dataparallel==v1.2.0
|
763104351884.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.9.0/cu111/2021-08-13/smdistributed_dataparallel-1.2.0-cp38-cp38-linux_x86_64.whl |
v1.8.1 | smdistributed-dataparallel==v1.2.3
|
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04 |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.8.1/cu111/2021-12-13/smdistributed_dataparallel-1.2.3-cp36-cp36m-linux_x86_64.whl |
v1.7.1 | smdistributed-dataparallel==v1.0.0
|
763104351884.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.7.1/cu110/2021-01-26/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl |
v1.6.0 | smdistributed-dataparallel==v1.0.0
|
763104351884.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.6.0/cu110/2021-01-14/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl |
注意
SageMaker 数据并行性库 v1.4.0 及更高版本可用作 PyTorch 分布式的后端。由于变更,PyTorch 分布式软件包的以下 smdistributed API
-
smdistributed.dataparallel.torch.distributed
已弃用。改为使用 torch.distributed软件包。 -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
已弃用。改为使用 torch.nn.parallel.DistributedDataParallelAPI。
如果您需要使用该库的早期版本(v1.3.0 或更早版本),请参阅 SageMaker Python SDK 文档中的已存档 SageMaker 数据并行性库文档
** 二进制文件的 URL 用于在自定义容器中安装 SageMaker 数据并行性库。有关更多信息,请参阅 使用 SageMaker 分布式数据并行库创建您自己的 Docker 容器。
PyTorch Lightning
PyTorch Lightning 版本 | PyTorch 版本 | SageMaker 数据并行性库版本 | smdistributed-dataparallel 集成映像 URI |
二进制文件的 URL** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<区域> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
注意
PyTorch DLC 中未预安装 PyTorch Lightning 及其实用程序库(例如 Lightning Bolts)。当您在步骤 2 中构造 SageMaker PyTorch 估算器并提交训练作业请求时,您需要在 SageMaker PyTorch 训练容器中提供 requirements.txt
以安装 pytorch-lightning
和 lightning-bolts
。
# requirements.txt pytorch-lightning lightning-bolts
有关指定放置 requirements.txt
文件以及训练脚本和作业提交的源目录的更多信息,请参阅 Amazon SageMaker Python SDK 文档中的使用第三方库
TensorFlow
TensorFlow 版本 | SageMaker 数据并行性库版本 | smdistributed-dataparallel 集成映像 URI |
---|---|---|
2.9.1 |
smdistributed-dataparallel==v1.4.1
|
763104351884.dkr.ecr.<区域> .amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker |
2.8.0 |
smdistributed-dataparallel==v1.3.0
|
763104351884.dkr.ecr.<区域> .amazonaws.com/tensorflow-training:2.8.0-gpu-py39-cu112-ubuntu20.04-sagemaker |
2.7.1 |
smdistributed-dataparallel==v1.3.0
|
763104351884.dkr.ecr. |
2.6.2 | smdistributed-dataparallel==v1.2.1
|
763104351884.dkr.ecr. |
2.5.1 | smdistributed-dataparallel==v1.2.1
|
763104351884.dkr.ecr. |
2.4.1 | smdistributed-dataparallel==v1.2.0
|
763104351884.dkr.ecr. |
2.3.2 | smdistributed-dataparallel==v1.0.0
|
763104351884.dkr.ecr. |
Hugging Face Transformers
适用于 Hugging Face 的 Amazon Deep Learning Containers 使用适用于 PyTorch 和 TensorFlow 的 SageMaker 训练容器作为其基础映像。要查找 Hugging Face Transformers 库版本以及可以结合使用的 PyTorch 和 TensorFlow 版本,请参阅最新的 Hugging Face 容器
Amazon Web Services 区域
在提供适用于 SageMaker 的 Amazon Deep Learning Containers
支持的实例类型
SageMaker 数据并行性库需要以下 ML 实例类型之一。
实例类型 |
---|
ml.p3.16xlarge |
ml.p3dn.24xlarge
|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
有关实例类型的规格,请参阅 Amazon EC2 实例类型
在遇到类似于以下内容的错误消息时,请按照请求提高 SageMaker 资源的服务限额中的说明操作。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.