本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
支持的框架和 Amazon Web Services 区域
在使用 SageMaker 模型并行度库之前,请检查支持的框架和实例类型,并确定您的 Amazon 账户和中是否有足够的配额。 Amazon Web Services 区域
注意
要查看该库的最新更新和发行说明,请参阅 SageMaker Python SDK 文档中的SageMaker 模型并行发行说明
支持的框架
SageMaker 模型并行度库支持以下深度学习框架,可在 Deep Learning Contain Amazon ers (DLC) 中使用,也可以作为二进制文件下载。
PyTorch 支持的版本 SageMaker 和 SageMaker 模型并行度库 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PyTorch 版本 | SageMaker 模型并行度库版本 | smdistributed-modelparallel 集成 DLC 映像 URI |
二进制文件的 URL** | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v2.0.0 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel。s3.us-west-2.amazonaws.com /pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.13.1 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel。s3.us-west-2.amazonaws.com /pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.12.1 | smdistributed-modelparallel==v1.13.0 |
|
https://sagemaker-distributed-model-parallel。s3.us-west-2.amazonaws.com /pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.12.0 | smdistributed-modelparallel==v1.11.0 |
|
https://sagemaker-distributed-model-parallel。s3.us-west-2.amazonaws.com /pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.11.0 | smdistributed-modelparallel==v1.10.0 |
|
https://sagemaker-distributed-model-parallel。s3.us-west-2.amazonaws.com /pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.10.2 |
smdistributed-modelparallel==v1.7.0 |
|
- | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.10.0 |
smdistributed-modelparallel==v1.5.0 |
|
- | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.9.1 |
smdistributed-modelparallel==v1.4.0 |
|
- | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v1.8.1* |
smdistributed-modelparallel==v1.6.0 |
|
- |
注意
SageMaker 模型并行度库 v1.6.0 及更高版本为提供了扩展功能。 PyTorch有关更多信息,请参阅 SageMaker 模型并行度库的核心功能。
** 二进制文件的 URL 用于在自定义容器中安装 SageMaker 模型并行度库。有关更多信息,请参阅使用 SageMaker 分布式模型并行库创建自己的 Docker 容器。
TensorFlow 支持的版本 SageMaker 和 SageMaker 模型并行度库 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
TensorFlow 版本 | SageMaker 模型并行度库版本 | smdistributed-modelparallel 集成 DLC 映像 URI |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v2.6.0 | smdistributed-modelparallel==v1.4.0 |
763104351884.dkr.ecr. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
v2.5.1 | smdistributed-modelparallel==v1.4.0
|
763104351884.dkr.ecr.
|
支持的 Hugging Face Transfor SageMaker mers 版本和 SageMaker分布式数据并行库
适用于 Hu Amazon gging Face 的 Deep Learning Contain PyTorch er TensorFlow s 使用 SageMaker 训练容器作为基础图像。要查找 Hugging Face Transformers 库版本以及 PyTorch 配对版本 TensorFlow 和版本,请查看最新的 Hugging Face 容器和之前的 Hu
Amazon Web Services 区域
SageMaker 数据并行库可在所有使用 Dee Amazon p Learning Contain
支持的实例类型
SageMaker 模型并行度库需要以下 ML 实例类型之一。
实例类型 |
---|
ml.g4dn.12xlarge |
ml.p3.16xlarge |
ml.p3dn.24xlarge
|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
有关实例类型的规格,请参阅 Amazon EC2 实例类型
如果您遇到类似以下内容的错误消息,请按照请求增加 SageMaker 资源服务配额中的说明进行操作。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.