支持的框架和 Amazon Web Services 区域 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架和 Amazon Web Services 区域

在使用 SageMaker 模型并行度库 v2 (SMP v2) 之前,请检查支持的框架和实例类型,并确定您的账户中是否有足够的配额和。 Amazon Amazon Web Services 区域

注意

要查看该库的最新更新和发行说明,请参阅 SageMaker 模型并行度库的发行说明

支持的框架

SMP v2 支持以下深度学习框架,可通过 SMP Docker 容器和 SMP Conda 频道获得。当你使用 Pyth SageMaker on SDK 中的框架估算器类并指定分发配置以使用 SMP v2 时, SageMaker 会自动获取 SMP Docker 容器。要使用 SMP v2,我们建议您在开发环境中始终保持 P SageMaker ython SDK 的最新版本。

PyTorch SageMaker 模型并行度库支持的版本

PyTorch 版本 SageMaker 模型并行度库版本 SMP Docker 镜像 URI
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 不可用。使用 SMP v2.3.0 的镜像,它向后兼容。
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

SMP Conda 频道

以下 S3 存储桶是 SMP 服务团队托管的公共 Conda 频道。如果要在 SageMaker HyperPod 群集等环境中安装 SMP v2 库,请使用此 Conda 通道正确安装 SMP 库。

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

有关 Conda 频道的更多信息,请参阅 Conda 文档中的频道

注意

要查找 SMP 库 v1.x 的早期版本和预打包的 DLC,请参阅 SMP v1 文档支持的框架中的。

将 SMP v2 与开源库配合使用

SMP v2 库可与其他 PyTorch基于开源库配合使用,例如 L PyTorch ightning、Hugging Face Transformers 和 Hugging Face Accelerate,因为 SMP v2 与 FSDP API 兼容。 PyTorch 如果您对与其他第三方库一起使用 SMP 库还有其他疑问,请通过以下方式与 SMP 服务团队联系。sm-model-parallel-feedback@amazon.com

Amazon Web Services 区域

SMP v2 在以下版本中可用。 Amazon Web Services 区域如果你想使用 SMP Docker 镜像 URI 或 SMP Conda 频道,请查看以下列表并选择与你的 Amazon Web Services 区域 相匹配的网址,然后相应地更新图片 URI 或频道网址。

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

支持的实例类型

SMP v2 需要以下机器学习实例类型之一。

实例类型
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
提示

从支持 v2.2.0 及更高版本的 SMP PyTorch v2.0 开始可用。使用变形引擎在 P5 实例上使用 FP8 进行混合精度训练

有关 SageMaker 机器学习实例类型的一般规格,请参阅 Amazon EC2 实例类型页面加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker 定价

如果您遇到类似以下内容的错误消息,请按照 Ser Amazon vice Quotas 用户指南中请求增加配额中的说明进行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact Amazon support to request an increase for this limit.