SageMaker AI 数据并行库发布说明 - Amazon SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

SageMaker AI 数据并行库发布说明

请参阅以下发布说明,跟踪 SageMaker AI 分布式数据并行(SMDDP)库最新更新的发布说明。

SageMaker AI 分布式数据并行库 v2.5.0

日期:2024 年 10 月 17 日

新特征

  • 已添加对 PyTorch v2.4.1 和 CUDA v12.1 的支持。

集成到由 SageMaker AI 模型并行(SMP)库分发的 Docker 容器中

该版本的 SMDDP 库已迁移至 SageMaker 模型并行性库 v2.6.0

658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121

有关提供 SMP Docker 映像的区域,请参阅 Amazon Web Services 区域

本版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl

SageMaker AI 分布式数据并行库 v2.3.0

日期:2024 年 6 月 11 日

新特征

  • 已添加对 PyTorch v2.3.0 和 CUDA v12.1 以及 Python v3.11 的支持。

  • 已添加对 PyTorch Lightning v2.2.5 的支持。它已集成到 PyTorch v2.3.0 的 SageMaker AI 框架容器中。

  • 在导入过程中添加了实例类型验证,以防止在不支持的实例类型上加载 SMDDP 库。有关与 SMDDP 库兼容的实例类型列表,请参阅 支持的框架、Amazon Web Services 区域 和实例类型

集成到 SageMaker AI 框架容器中

该版本的 SMDDP 库已迁移至以下 SageMaker AI 框架容器

  • PyTorch v2.3.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker

有关 SMDDP 库和与预构建容器版本的完整列表,请参阅 支持的框架、Amazon Web Services 区域 和实例类型

本版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl

其他更改

  • SMDDP 库 v2.2.0 已集成到 PyTorch v2.2.0 的 SageMaker AI 框架容器中。

SageMaker AI 分布式数据并行库 v2.2.0

日期:2024 年 3 月 4 日

新特征

  • 已添加对 PyTorch v2.2.0 和 CUDA v12.1 的支持。

集成到由 SageMaker AI 模型并行(SMP)库分发的 Docker 容器中

该版本的 SMDDP 库已迁移至 SageMaker 模型并行性库 v2.2.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

有关提供 SMP Docker 映像的区域,请参阅 Amazon Web Services 区域

本版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl

SageMaker AI 分布式数据并行库 v2.1.0

日期:2024 年 3 月 1 日

新特征

  • 已添加对 PyTorch v2.1.0 和 CUDA v12.1 的支持。

错误修复

集成到 SageMaker AI 框架容器中

该版本的 SMDDP 库已通过基准测试,并已迁移至以下 SageMaker AI 框架容器

  • PyTorch v2.1.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker

集成到由 SageMaker AI 模型并行(SMP)库分发的 Docker 容器中

该版本的 SMDDP 库已迁移至 SageMaker 模型并行性库 v2.1.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121

有关提供 SMP Docker 映像的区域,请参阅 Amazon Web Services 区域

本版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl

SageMaker AI 分布式数据并行库 v2.0.1

日期:2023 年 12 月 7 日

新特征

  • 新增了针对 Amazon 计算资源和网络基础设施优化的 AllGather 集体操作 SMDDP 实现。要了解更多信息,请参阅SMDDP AllGather 集体操作

  • SMDDP AllGather 集体运行与 PyTorch FSDP 和 DeepSpeed 兼容。要了解更多信息,请参阅在 PyTorch 训练脚本中使用 SMDDP 库

  • 增加了对 PyTorch v2.0.1 的支持

已知问题

  • 在 DDP 模式下使用 SMDDP AllReduce 进行训练时,CPU 内存逐渐增加,导致 CPU 内存泄漏。

集成到 SageMaker AI 框架容器中

该版本的 SMDDP 库已通过基准测试,并已迁移至以下 SageMaker AI 框架容器

  • PyTorch v2.0.1

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker

本版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

其他更改

  • 从本版本开始,SMDDP 库的文档将在本《Amazon SageMaker AI 开发人员指南》中全面提供。鉴于《Amazon SageMaker AI 开发人员指南》中已提供关于 SMDDP v2 的完整开发人员指南,SageMaker AI Python SDK 文档中针对 SMDDP v1.x 的附加参考内容现已不再受支持。如果您还需要 SMP v1.x 文档,请参阅 SageMaker Python SDK v2.212.0 文档