支持的框架 Amazon Web Services 区域、和实例类型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架 Amazon Web Services 区域、和实例类型

在使用 SageMaker 分布式数据并行度 (SMDDP) 库之前,请检查支持的机器学习框架和实例类型以及您的账户中是否有足够的配额,以及。 Amazon Amazon Web Services 区域

支持的框架

下表显示了 SMDDP 支持的深度学习框架及其版本。 SageMaker SMDDP 库可在SageMaker 框架容器中使用,也可以集成在 SageMaker 模型并行度 (SMP) 库 v2 分发的 Docker 容器中,也可以作为二进制文件下载。

注意

要查看 SMDDP 库的最新更新和发行说明,请参阅。SageMaker 数据并行度库发行说明

PyTorch

PyTorch 版本 SMDDP 库版本 SageMaker 预装了 SMDDP 的框架容器镜像 预装了 SMDDP 的 SMP Docker 镜像 二进制文件的 URL**
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 目前不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** 二进制文件的 URL 用于在自定义容器中安装 SMDDP 库。有关更多信息,请参阅 使用 SageMaker 分布式数据并行库创建自己的 Docker 容器

注意
注意

SMDDP 库 v1.4.0 及更高版本可用作 PyTorch 分布式(torch.distributed)数据并行性(torch.parallel)的后端。 DistributedData平行)。根据此更改,已弃用分布式软件包的以下 smdistri PyTorch buted API

如果您需要使用该库的早期版本(v1.3.0 或更早版本),请参阅 Python SageMaker SDK 文档中存档的 SageMaker 分布式数据并行性文档。

PyTorch 闪电

SMDDP 库可在以下 SageMaker 框架容器 PyTorch 和 SMP Docker 容器中用于 L PyTorch ightning。

PyTorch 闪电 v2

PyTorch 闪电版 PyTorch 版本 SMDDP 库版本 SageMaker 预装了 SMDDP 的框架容器镜像 预装了 SMDDP 的 SMP Docker 镜像 二进制文件的 URL**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 目前不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 不可用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch 闪电 v1

PyTorch 闪电版 PyTorch 版本 SMDDP 库版本 SageMaker 预装了 SMDDP 的框架容器镜像 二进制文件的 URL**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<区域>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** 二进制文件的 URL 用于在自定义容器中安装 SMDDP 库。有关更多信息,请参阅 使用 SageMaker 分布式数据并行库创建自己的 Docker 容器

注意

PyTorch Lightning 及其实用程序库(例如 Lightning Bolts)未预装在 PyTorch DLC 中。在步骤 2 中构造 SageMaker PyTorch 估算器并提交训练任务请求时,需要在 SageMaker PyTorch训练容器lightning-bolts中提供requirements.txt安装pytorch-lightning和。

# requirements.txt pytorch-lightning lightning-bolts

有关指定存放requirements.txt文件以及训练脚本和作业提交的源目录的更多信息,请参阅 Amaz SageMaker on Python SDK 文档中的使用第三方库

Hugging Face Transformers

适用于 Hu Amazon gging Face 的 Deep Learning Contain PyTorch er TensorFlow s 使用 SageMaker 训练容器作为基础图像。要查找 Hugging Face Transformers 库版本以及 PyTorch 配对版本 TensorFlow 和版本,请查看最新的 Hugging Face 容器和之前的 Hu ggin g Fac e 容器版本。

TensorFlow(已淘汰)

重要

在 v2.11.0 之后,SMDDP 库已停止支持, TensorFlow 并且不再在 DLC 中可用。 TensorFlow 下表列出了以前安装了 SMDDP TensorFlow 库的 DLC。

TensorFlow 版本 SMDDP 库版本
2.9.1、2.10.1、2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Amazon Web Services 区域

SMDDP 库可在所有使用 Dee Amazon p Learning Containers SageMaker 和 SMP Docker 镜像 Amazon Web Services 区域的地方使用。

支持的实例类型

SMDDP 库需要以下实例类型之一。

实例类型
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
提示

要在启用 EFA 的实例类型上正确运行分布式训练,您应该将 VPC 的安全组设置为允许所有进出安全组本身的入站和出站流量,从而启用实例之间的流量。要了解如何设置安全组规则,请参阅 A mazon EC2 用户指南中的步骤 1:准备启用 EFA 的安全组

重要

* SMDDP 库已停止支持在 P3 实例上优化其集体通信操作。虽然您仍然可以在ml.p3dn.24xlarge实例上使用 SMDDP 优化的AllReduce集合,但不会有进一步的开发支持来增强该实例类型的性能。请注意,SMDDP 优化AllGather集合仅适用于 P4 实例。

有关实例类型的规格,请参阅 Amazon EC2 实例类型页面中的加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker 定价

如果您遇到类似以下内容的错误消息,请按照请求增加 SageMaker 资源服务配额中的说明进行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.