

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# SageMaker AI 数据并行度库发行说明
SMDDP 发布说明

要跟踪 SageMaker AI 分布式数据并行度 (SMDDP) 库的最新更新，请参阅以下发行说明。

## A SageMaker I 分布式数据并行库 v2.5.0
SMDDP v2.5.0

*日期：2024 年 10 月 17 日*

**新特征**
+ 在 CUDA v12.1 中添加了 PyTorch 对 v2.4.1 的支持。

**集成到由 SageMaker AI 模型并行度 (SMP) 库分发的 Docker 容器中**

该版本的 SMDDP 库已迁移至 [SageMaker 模型并行度库 v2.6.0](model-parallel-release-notes.md#model-parallel-release-notes-20241017)。

```
658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
```

有关提供 SMP Docker 映像的区域，请参阅 [Amazon Web Services 区域](distributed-model-parallel-support-v2.md#distributed-model-parallel-availablity-zone-v2)。

**本版本的二进制文件**

您可以使用以下 URL 下载或安装该库。

```
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
```

## A SageMaker I 分布式数据并行库 v2.3.0
SMDDP v2.3.0

*日期：2024 年 6 月 11 日*

**新特征**
+ 在 CUDA PyTorch v12.1 和 Python v3.11 中增加了对 v2.3.0 的支持。
+ 增加了对 PyTorch Lightning v2.2.5 的支持。它已集成到 PyTorch v2.3. SageMaker 0 的 AI 框架容器中。
+ 在导入过程中添加了实例类型验证，以防止在不支持的实例类型上加载 SMDDP 库。有关与 SMDDP 库兼容的实例类型列表，请参阅 [支持的框架 Amazon Web Services 区域、和实例类型](distributed-data-parallel-support.md)。

**集成到 SageMaker AI 框架容器中**

此版本的 SMDDP 库已迁移到以下 [SageMaker AI 框架](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)容器中。
+ PyTorch v2.3.0

  ```
  763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker
  ```

有关 SMDDP 库和与预构建容器版本的完整列表，请参阅 [支持的框架 Amazon Web Services 区域、和实例类型](distributed-data-parallel-support.md)。

**本版本的二进制文件**

您可以使用以下 URL 下载或安装该库。

```
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
```

**其他更改**
+ SMDDP 库 v2.2.0 已集成到 v2.2.0 SageMaker 的人工智能框架容器中。 PyTorch 

## A SageMaker I 分布式数据并行库 v2.2.0
SMDDP v2.2.0

*日期：2024 年 3 月 4 日*

**新特征**
+ 在 CUDA v12.1 中添加了 PyTorch 对 v2.2.0 的支持。

**集成到由 SageMaker AI 模型并行度 (SMP) 库分发的 Docker 容器中**

该版本的 SMDDP 库已迁移至 [SageMaker 模型并行度库 v2.2.0](model-parallel-release-notes.md#model-parallel-release-notes-20240307)。

```
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
```

有关提供 SMP Docker 映像的区域，请参阅 [Amazon Web Services 区域](distributed-model-parallel-support-v2.md#distributed-model-parallel-availablity-zone-v2)。

**本版本的二进制文件**

您可以使用以下 URL 下载或安装该库。

```
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
```

## A SageMaker I 分布式数据并行库 v2.1.0
SMDDP v2.1.0

*日期：2024 年 3 月 1 日*

**新特征**
+ 在 CUDA v12.1 中添加了 PyTorch 对 v2.1.0 的支持。

**错误修复**
+ 修正了 [SMDDP v2.0.1](#data-parallel-release-notes-20231207) 中的 CPU 内存泄漏问题。

**集成到 SageMaker AI 框架容器中**

此版本的 SMDDP 库通过了基准测试，并已迁移到以下 [SageMaker AI 框架](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)容器中。
+ PyTorch v2.1.0

  ```
  763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker
  ```

**集成到由 SageMaker AI 模型并行度 (SMP) 库分发的 Docker 容器中**

该版本的 SMDDP 库已迁移至 [SageMaker 模型并行度库 v2.1.0](model-parallel-release-notes.md#model-parallel-release-notes-20240206)。

```
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
```

有关提供 SMP Docker 映像的区域，请参阅 [Amazon Web Services 区域](distributed-model-parallel-support-v2.md#distributed-model-parallel-availablity-zone-v2)。

**本版本的二进制文件**

您可以使用以下 URL 下载或安装该库。

```
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
```

## A SageMaker I 分布式数据并行库 v2.0.1
SMDDP v2.0.1

*日期：2023 年 12 月 7 日*

**新特征**
+ 添加了针对 Amazon 计算资源和网络基础设施进行了优化的全新 SMDDP `AllGather` 集体操作实现。要了解更多信息，请参阅[SMDDP `AllGather` 集体操作](data-parallel-intro.md#data-parallel-allgather)。
+ SMDDP `AllGather` 集体行动与 PyTorch FSDP 兼容，. DeepSpeed 要了解更多信息，请参阅[在训练脚本中使用 SMDDP 库 PyTorch](data-parallel-modify-sdp-pt.md)。
+ 增加了对 PyTorch v2.0.1 的支持

**已知问题**
+ 在 DDP 模式下使用 SMDDP `AllReduce` 进行训练时，CPU 内存逐渐增加，导致 CPU 内存泄漏。

**集成到 SageMaker AI 框架容器中**

此版本的 SMDDP 库通过了基准测试，并已迁移到以下 [SageMaker AI 框架](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)容器中。
+ PyTorch v2.0.1

  ```
  763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker
  ```

**本版本的二进制文件**

您可以使用以下 URL 下载或安装该库。

```
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
```

**其他更改**
+ 从本版本开始，本*亚马逊 A SageMaker I 开发者*指南中提供了有关 SMDDP 库的完整文档。为了支持*亚马逊 SageMaker 人工智能开发者指南中包含的完整的 SMDDP v2 开发者指南，不再支持 AI* P *ython* SDK 文档中[有关 SMDDP v1.x 的SageMaker 额外参考](https://sagemaker.readthedocs.io/en/stable/api/training/smd_data_parallel.html)文档。如果你还需要 SMP v1.x 文档，请参阅 Pyth [SageMaker on SDK](https://sagemaker.readthedocs.io/en/v2.212.0/api/training/distributed.html#the-sagemaker-distributed-data-parallel-library) v2.212.0 文档中的以下文档快照。