支持的框架 Amazon Web Services 区域、和实例类型

在使用 SageMaker AI 分布式数据并行度 (SMDDP) 库之前，请检查支持的机器学习框架和实例类型以及您的账户中是否有足够的配额，以及。 Amazon Amazon Web Services 区域

支持的框架

下表显示了 SageMaker AI 和 SMDDP 支持的深度学习框架及其版本。SMDDP 库可在 SageMaker AI 框架容器中使用，也可以集成在 SageMaker 模型并行度 (SMP) 库 v2 分发的 Docker 容器中，也可以作为二进制文件下载。

注意

要查看 SMDDP 库的最新更新和版本说明，请参阅 SageMaker AI 数据并行度库发行说明。

PyTorch

PyTorch 版本	SMDDP 库版本	SageMaker 预装了 SMDDP 的 AI 框架容器镜像	预装了 SMDDP 的 SMP Docker 映像	二进制文件的 URL**
v2.3.1	`smdistributed-dataparallel==v2.5.0`	不可用	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl`
v2.3.0	`smdistributed-dataparallel==v2.3.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker`	当前无可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl`
v2.2.0	`smdistributed-dataparallel==v2.2.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl`
v2.1.0	`smdistributed-dataparallel==v2.1.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl`
v2.0.1	`smdistributed-dataparallel==v2.0.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker`	不可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl`
v2.0.0	`smdistributed-dataparallel==v1.8.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker`	不可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl`
v1.13.1	`smdistributed-dataparallel==v1.7.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker`	不可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl`
v1.12.1	`smdistributed-dataparallel==v1.6.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker`	不可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl`
v1.12.0	`smdistributed-dataparallel==v1.5.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker`	不可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl`
v1.11.0	`smdistributed-dataparallel==v1.4.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker`	不可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl`

** 二进制文件用于在自定义容器中安装 SMDDP 库。 URLs 有关更多信息，请参阅使用 SageMaker AI 分布式数据并行库创建自己的 Docker 容器。

注意

SMDDP 库可在使用 SageMaker AI 框架容器和 SMP Docker 镜像 Amazon Web Services 区域的地方使用。

注意

SMDDP 库 v1.4.0 及更高版本可用作 PyTorch 分布式（torch.distributed）数据并行性（torch.parallel）的后端。 DistributedDataParallel)。根据更改，已弃用以下 smdistri APIs bute PyTorch d 的分布式软件包。

smdistributed.dataparallel.torch.distributed 已弃用。改为使用 torch.distributed 软件包。
smdistributed.dataparallel.torch.parallel.DistributedDataParallel 已弃用。使用 torch.nn.parallel。 DistributedDataParallel改用 API。

如果您需要使用该库的早期版本（v1.3.0 或更早版本），请参阅 AI SageMaker Python SDK 文档中存档的 SageMaker AI 分布式数据并行性文档。

PyTorch 闪电

SMDDP 库适用于以下 SageMaker AI 框架容器 PyTorch 和 SMP Docker 容器中的 L PyTorch ightning。

PyTorch 闪电 v2

PyTorch 闪电版	PyTorch 版本	SMDDP 库版本	SageMaker 预装了 SMDDP 的 AI 框架容器镜像	预装了 SMDDP 的 SMP Docker 映像	二进制文件的 URL**
2.2.5	2.3.0	`smdistributed-dataparallel==v2.3.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker`	当前无可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl`
2.2.0	2.2.0	`smdistributed-dataparallel==v2.2.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl`
2.1.2	2.1.0	`smdistributed-dataparallel==v2.1.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl`
2.1.0	2.0.1	`smdistributed-dataparallel==v2.0.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker`	不可用	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl`

PyTorch 闪电 v1

PyTorch 闪电版 PyTorch 版本 SMDDP 库版本 SageMaker 预装了 SMDDP 的 AI 框架容器镜像二进制文件的 URL**

PyTorch 闪电版	PyTorch 版本	SMDDP 库版本	SageMaker 预装了 SMDDP 的 AI 框架容器镜像	二进制文件的 URL**
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10	1.12.0	`smdistributed-dataparallel==v1.5.0`	763104351884.dkr.ecr。 `<region>`.amazonaws.com/pytorch-training：1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker	https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0

smdistributed-dataparallel==v1.5.0

763104351884.dkr.ecr。 <region>.amazonaws.com/pytorch-training：1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** 二进制文件用于在自定义容器中安装 SMDDP 库。 URLs 有关更多信息，请参阅使用 SageMaker AI 分布式数据并行库创建自己的 Docker 容器。

注意

PyTorch Lightning 及其实用程序库（例如 Lightning Bolts）未预装在。 PyTorch DLCs在步骤 2 中构建 A SageMaker I PyTorch 估算器并提交训练任务请求时，需要在 SageMaker AI PyTorch 训练requirements.txt容器lightning-bolts中提供安装pytorch-lightning和。


# requirements.txt
pytorch-lightning
lightning-bolts

有关指定存放requirements.txt文件以及训练脚本和作业提交的源目录的更多信息，请参阅 Amazon A SageMaker I Python SDK 文档中的使用第三方库。

Hugging Face Transformers

适用于 Hu Amazon gging Face 的 Deep Learning Contain PyTorch er TensorFlow s 使用 SageMaker 训练容器作为基础图像。要查找 Hugging Face Transformers 库版本以及 PyTorch 配对版本 TensorFlow 和版本，请查看最新的 Hugging Face 容器和之前的 Hu ggin g Fac e 容器版本。

TensorFlow（已淘汰）

重要

在 v2.11.0 之后，SMDDP 库已停止支持， TensorFlow 并且在 DLCs v2.11.0 TensorFlow 之后不再可用。下表列出了之前安装 DLCs 了 SMDDP 库的。 TensorFlow

TensorFlow 版本	SMDDP 库版本
2.9.1、2.10.1、2.11.0	`smdistributed-dataparallel==v1.4.1`
2.8.3	`smdistributed-dataparallel==v1.3.0`

Amazon Web Services 区域

SMDDP 库可在所有使用 SageMaker 人工智能的 Deep Learning C Amazon ontain ers 和 SMP Docker 镜像 Amazon Web Services 区域的地方使用。

支持的实例类型

SMDDP 库需要以下实例类型之一。

实例类型
`ml.p3dn.24xlarge`*
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`

提示

要在启用 EFA 的实例类型上正确运行分布式训练，您应该通过设置 VPC 的安全组来启用实例之间的流量，允许所有进出安全组的流量。要了解如何设置安全组规则，请参阅 A mazon EC2 用户指南中的步骤 1：准备启用 EFA 的安全组。

重要

* SMDDP 库已停止支持在 P3 实例上优化其集体通信操作。虽然您仍然可以在 ml.p3dn.24xlarge 实例上使用 SMDDP 优化的 AllReduce 集合，但将不再提供进一步的开发支持，以提高此实例类型的性能。请注意，SMDDP 优化的 AllGather 集合仅适用于 P4 实例。

有关实例类型的规格，请参阅 Amazon EC2 实例类型页面的加速计算部分。有关实例定价的信息，请参阅 Amazon SageMaker 定价。

如果您遇到类似以下内容的错误消息，请按照请求增加 SageMaker AI 资源的服务配额中的说明进行操作。


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

SMDDP 库简介

利用 SMDDP 库进行分布式训练