SageMaker 数据并行度库发行说明 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 数据并行度库发行说明

要跟踪 SageMaker 分布式数据并行度 (SMDDP) 库的最新更新,请参阅以下发行说明。

SageMaker 分布式数据并行库 v2.3.0

日期:2024年6月11日

新功能

  • 在 CUDA PyTorch v12.1 和 Python v3.11 中增加了对 v2.3.0 的支持。

  • 增加了对 PyTorch Lightning v2.2.5 的支持。它已集成到 PyTorch v2.3. SageMaker 0 的框架容器中。

  • 在导入期间添加了实例类型验证,以防止在不支持的实例类型上加载 SMDDP 库。有关与 SMDDP 库兼容的实例类型的列表,请参阅。支持的框架 Amazon Web Services 区域、和实例类型

集成到 SageMaker 框架容器中

此版本的 SMDDP 库已迁移到以下SageMaker 框架容器中。

  • PyTorch v2.3.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker

有关 SMDDP 库和预构建容器的完整版本列表,请参阅。支持的框架 Amazon Web Services 区域、和实例类型

此版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl

其他改动

  • SMDDP 库 v2.2.0 已集成到 v2.2.0 的 SageMaker 框架容器中。 PyTorch

SageMaker 分布式数据并行库 v2.2.0

日期:2024年3月4日

新功能

  • 在 CUDA v12.1 中添加了 PyTorch 对 v2.2.0 的支持。

集成到由 SageMaker 模型并行度 (SMP) 库分发的 Docker 容器中

此版本的 SMDDP 库已迁移到。 SageMaker 模型并行度库 v2.2.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

有关提供 SMP Docker 镜像的地区,请参阅。Amazon Web Services 区域

此版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl

SageMaker 分布式数据并行库 v2.1.0

日期:2024年3月1日

新功能

  • 在 CUDA v12.1 中添加了 PyTorch 对 v2.1.0 的支持。

错误修复

集成到 SageMaker 框架容器中

此版本的 SMDDP 库通过了基准测试,并已迁移到以下SageMaker 框架容器中。

  • PyTorch v2.1.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker

集成到由 SageMaker 模型并行度 (SMP) 库分发的 Docker 容器中

此版本的 SMDDP 库已迁移到。 SageMaker 模型并行度库 v2.1.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121

有关提供 SMP Docker 镜像的地区,请参阅。Amazon Web Services 区域

此版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl

SageMaker 分布式数据并行库 v2.0.1

日期:2023 年 12 月 7 日

新功能

  • 添加了针对 Amazon 计算资源和网络基础设施进行了优化的全新 SMDDP AllGather 集体操作实现。要了解更多信息,请参阅SMDDP 集体行动 AllGather

  • SMDDP AllGather 集体行动与 PyTorch FSDP 兼容,. DeepSpeed 要了解更多信息,请参阅在训练脚本中使用 SMDDP 库 PyTorch

  • 增加了对 PyTorch v2.0.1 的支持

已知问题

  • 在 DDP 模式下使用 SMDDP AllReduce 训练时,CPU 内存逐渐增加会导致 CPU 内存泄漏问题。

集成到 SageMaker 框架容器中

此版本的 SMDDP 库通过了基准测试,并已迁移到以下SageMaker 框架容器中。

  • PyTorch v2.0.1

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker

此版本的二进制文件

您可以使用以下 URL 下载或安装该库。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

其他改动

  • 从本版本开始,SMDDP 库的全部文档都可以在本 A mazon SageMaker 开发者指南中找到。为了支持亚马逊开发者指南中包含的完整的 SMDDP v2 SageMaker 开发者指南,不再支持 Pyth SageMaker on SDK 文档中有关 SMDDP v1.x 的额外参考文档。如果你还需要 SMP v1.x 文档,请参阅 Pyth SageMaker on SDK v2.212.0 文档中的以下文档快照。