支持的框架,Amazon Web Services 区域和实例类型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架,Amazon Web Services 区域和实例类型

在使用之前 SageMaker 数据 parallel 库,检查哪些支持的 ML 框架和实例类型以及您的中是否有足够的配额Amazon账户和Amazon Web Services 区域.

支持的框架

这些区域有: SageMaker data parallel 库支持以下深度学习框架,可在AmazonDeep Learning Containers (DLC) 或可作为二进制文件下载。

PyTorch 版本支持 SageMaker 和 SageMaker 分布式数据 parallel 库

PyTorch 版本 SageMaker 分布式数据 parallel 库版本 smdistributed-dataparallel集成映像 URI 二进制文件的 URL **
v1.11.0 smdistributed-dataparallel==v1.4.1* 763104351884.dkr.ecr.<region>.amazonaws.com/Pytorch-训练:1.11.0-gpu-py38-cu113-ubuntu20.04 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-dataparallel==v1.4.0* 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch 训练:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.10.2/cu113/2022-02-18/smdistributed_dataparallel-1.4.0-cp38-cp38-linux_x86_64.whl
v1.9.1 smdistributed-dataparallel==v1.2.0

763104351884.dkr.ecr.<region>.amazonaws.com/py38-cu1-ubuntu20.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.9.0/cu111/2021-08-13/smdistributed_dataparallel-1.2.0-cp38-cp38-linux_x86_64.whl
v1.8.1 smdistributed-dataparallel==v1.2.3 763104351884.dkr.ecr.<region>.amazonaws.com/py36-cu1-ubuntu18.04 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.8.1/cu111/2021-12-13/smdistributed_dataparallel-1.2.3-cp36-cp36m-linux_x86_64.whl
v1.7.1 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<region>.amazonaws.com/py36-cu110-ubuntu18.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.7.1/cu110/2021-01-26/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl
v1.6.0 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<region>.amazonaws.com/Pytorch-训练:1.6.0-gpu-py36-cu110-ubuntu18.04

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.6.0/cu110/2021-01-14/smdistributed_dataparallel-1.0.0-cp36-cp36m-linux_x86_64.whl

* 该 SageMaker 分布式数据并行度库 v1.4.0 及更高版本可作为 PyTorch 分布式。根据变更,以下sm分布的API(对于 ) PyTorch 已弃用分布式软件包。

** 二进制文件的 URL 用于安装 SageMaker 自定义容器中的分布式数据并行库。有关更多信息,请参阅 使用创建自己的 Docker 容器 SageMaker 分布式数据并行库

支持的 TensorFlow 版本 SageMaker 和 SageMaker 分布式数据 parallel 库

TensorFlow 版本 SageMaker 分布式数据 parallel 库版本 smdistributed-dataparallel集成映像 URI
2.8.0 smdistributed-dataparallel==v1.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow: 2.8.0-gpu-py39-cu2-ubuntu20.04
2.7.1 smdistributed-dataparallel==v1.3.0

763104351884.dkr.ecr.<region>.amazonaws.com/ 张量流训练:2.7.1-gpu-py38-cu112-ubuntu20.04-sagemaker

2.6.2 smdistributed-dataparallel==v1.2.1

763104351884.dkr.ecr.<region>.amazonaws.com/ 张量流训练:2.6.2-gpu-py38-cu112-ubuntu20.04

2.5.1 smdistributed-dataparallel==v1.2.1

763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow 推理:2.5.1-gpu-py37-cu2-ubuntu18.04

2.4.1 smdistributed-dataparallel==v1.2.0

763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow: 2.4.1-gpu-py37-cu110-ubuntu18.04

2.3.2 smdistributed-dataparallel==v1.0.0

763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow: 2.3.2-gpu-py37-cu110-ubuntu18.04

拥抱 Face 变形金刚支持的版本 SageMaker 和 SageMaker 分布式数据 parallel 库

这些区域有:Amazon用于拥抱脸部的 Deep Learning Containers 使用 SageMaker 用于的训练容器 PyTorch 和 TensorFlow 作为他们的基本图片。查找拥抱 Face 变形金刚库版本并配对 PyTorch 和 TensorFlow 版本,请参阅最新拥抱脸容器之前的拥抱 Face 容器版本.

Amazon Web Services 区域

这些区域有: SageMaker 数据 parallel 库在所有Amazon Web Services 区域其中AmazonSageMaker 的 Deep Learning Containers在服务中。有关更多信息,请参阅 。可用的 Deep Learning Containers 映像.

支持的 实例类型

这些区域有: SageMaker 数据 parallel 库需要以下机器学习实例类型之一。

实例类型
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge

有关实例类型的规格,请参阅加速计算部分中的Amazon EC2 实例类型. 有关实例定价的信息,请参阅亚马逊 SageMaker 定价.

如果您遇到类似于以下内容的错误消息,请按照请求提升服务配额 SageMaker 资源.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.