本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
支持的框架,Amazon Web Services 区域和实例类型
在使用之前 SageMaker 数据 parallel 库,检查哪些支持的 ML 框架和实例类型以及您的中是否有足够的配额Amazon账户和Amazon Web Services 区域.
支持的框架
这些区域有: SageMaker data parallel 库支持以下深度学习框架,可在AmazonDeep Learning Containers (DLC) 或可作为二进制文件下载。
PyTorch 版本支持 SageMaker 和 SageMaker 分布式数据 parallel 库
PyTorch 版本 | SageMaker 分布式数据 parallel 库版本 | smdistributed-dataparallel 集成映像 URI |
二进制文件的 URL ** |
---|---|---|---|
v1.11.0 | smdistributed-dataparallel==v1.4.1 * |
763104351884.dkr.ecr.<region> .amazonaws.com/Pytorch-训练:1.11.0-gpu-py38-cu113-ubuntu20.04 |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
v1.10.2 |
smdistributed-dataparallel==v1.4.0 * |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch 训练:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.10.2/cu113/2022-02-18/smdistributed_dataparallel-1.4.0-cp38-cp38-linux_x86_64.whl |
v1.9.1 |
smdistributed-dataparallel==v1.2.0
|
763104351884.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.9.0/cu111/2021-08-13/smdistributed_dataparallel-1.2.0-cp38-cp38-linux_x86_64.whl |
v1.8.1 | smdistributed-dataparallel==v1.2.3
|
763104351884.dkr.ecr.<region> .amazonaws.com/py36-cu1-ubuntu18.04 |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.8.1/cu111/2021-12-13/smdistributed_dataparallel-1.2.3-cp36-cp36m-linux_x86_64.whl |
v1.7.1 | smdistributed-dataparallel==v1.0.0
|
763104351884.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.7.1/cu110/2021-01-26/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl |
v1.6.0 | smdistributed-dataparallel==v1.0.0
|
763104351884.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.6.0/cu110/2021-01-14/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl |
* 该 SageMaker 分布式数据并行度库 v1.4.0 及更高版本可作为 PyTorch 分布式。根据变更,以下sm分布的API
-
smdistributed.dataparallel.torch.distributed
已弃用。使用torch.分布式/分布而不是打包。 -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
已弃用。使用Torch.nn.Parallel.Pallel.Pallel.Pallel.Pallell而不是 API。 如果需要使用库的早期版本(v1.3.0 或早期版本),请参阅archived SageMaker 分布式数据 parallel 库文档
中的SageMaker Python SDK 文档.
** 二进制文件的 URL 用于安装 SageMaker 自定义容器中的分布式数据并行库。有关更多信息,请参阅 使用创建自己的 Docker 容器 SageMaker 分布式数据并行库。
支持的 TensorFlow 版本 SageMaker 和 SageMaker 分布式数据 parallel 库
TensorFlow 版本 | SageMaker 分布式数据 parallel 库版本 | smdistributed-dataparallel 集成映像 URI |
---|---|---|
2.8.0 |
smdistributed-dataparallel==v1.3.0
|
763104351884.dkr.ecr.<region> .amazonaws.com/tensorflow: 2.8.0-gpu-py39-cu2-ubuntu20.04 |
2.7.1 |
smdistributed-dataparallel==v1.3.0
|
763104351884.dkr.ecr. |
2.6.2 | smdistributed-dataparallel==v1.2.1
|
763104351884.dkr.ecr. |
2.5.1 | smdistributed-dataparallel==v1.2.1
|
763104351884.dkr.ecr. |
2.4.1 | smdistributed-dataparallel==v1.2.0
|
763104351884.dkr.ecr. |
2.3.2 | smdistributed-dataparallel==v1.0.0
|
763104351884.dkr.ecr. |
拥抱 Face 变形金刚支持的版本 SageMaker 和 SageMaker 分布式数据 parallel 库
这些区域有:Amazon用于拥抱脸部的 Deep Learning Containers 使用 SageMaker 用于的训练容器 PyTorch 和 TensorFlow 作为他们的基本图片。查找拥抱 Face 变形金刚库版本并配对 PyTorch 和 TensorFlow 版本,请参阅最新拥抱脸容器
Amazon Web Services 区域
这些区域有: SageMaker 数据 parallel 库在所有Amazon Web Services 区域其中AmazonSageMaker 的 Deep Learning Containers
支持的 实例类型
这些区域有: SageMaker 数据 parallel 库需要以下机器学习实例类型之一。
实例类型 |
---|
ml.p3.16xlarge |
ml.p3dn.24xlarge
|
ml.p4d.24xlarge |
有关实例类型的规格,请参阅加速计算部分中的Amazon EC2 实例类型
如果您遇到类似于以下内容的错误消息,请按照请求提升服务配额 SageMaker 资源.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.