本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker 数据并行度库发行说明
要跟踪 SageMaker 分布式数据并行度 (SMDDP) 库的最新更新,请参阅以下发行说明。
SageMaker 分布式数据并行库 v2.3.0
日期:2024年6月11日
新功能
-
在 CUDA PyTorch v12.1 和 Python v3.11 中增加了对 v2.3.0 的支持。
-
增加了对 PyTorch Lightning v2.2.5 的支持。它已集成到 PyTorch v2.3. SageMaker 0 的框架容器中。
-
在导入期间添加了实例类型验证,以防止在不支持的实例类型上加载 SMDDP 库。有关与 SMDDP 库兼容的实例类型的列表,请参阅。支持的框架 Amazon Web Services 区域、和实例类型
集成到 SageMaker 框架容器中
此版本的 SMDDP 库已迁移到以下SageMaker 框架
-
PyTorch v2.3.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker
有关 SMDDP 库和预构建容器的完整版本列表,请参阅。支持的框架 Amazon Web Services 区域、和实例类型
此版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
其他改动
-
SMDDP 库 v2.2.0 已集成到 v2.2.0 的 SageMaker 框架容器中。 PyTorch
SageMaker 分布式数据并行库 v2.2.0
日期:2024年3月4日
新功能
-
在 CUDA v12.1 中添加了 PyTorch 对 v2.2.0 的支持。
集成到由 SageMaker 模型并行度 (SMP) 库分发的 Docker 容器中
此版本的 SMDDP 库已迁移到。 SageMaker 模型并行度库 v2.2.0
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
有关提供 SMP Docker 镜像的地区,请参阅。Amazon Web Services 区域
此版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
SageMaker 分布式数据并行库 v2.1.0
日期:2024年3月1日
新功能
-
在 CUDA v12.1 中添加了 PyTorch 对 v2.1.0 的支持。
错误修复
-
修复了中的 CPU 内存泄漏问题SMDDP v2.0.1。
集成到 SageMaker 框架容器中
此版本的 SMDDP 库通过了基准测试,并已迁移到以下SageMaker 框架
-
PyTorch v2.1.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker
集成到由 SageMaker 模型并行度 (SMP) 库分发的 Docker 容器中
此版本的 SMDDP 库已迁移到。 SageMaker 模型并行度库 v2.1.0
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
有关提供 SMP Docker 镜像的地区,请参阅。Amazon Web Services 区域
此版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
SageMaker 分布式数据并行库 v2.0.1
日期:2023 年 12 月 7 日
新功能
-
添加了针对 Amazon 计算资源和网络基础设施进行了优化的全新 SMDDP
AllGather
集体操作实现。要了解更多信息,请参阅SMDDP 集体行动 AllGather。 -
SMDDP
AllGather
集体行动与 PyTorch FSDP 兼容,. DeepSpeed 要了解更多信息,请参阅在 PyTorch 训练脚本中使用该SMDDP库。 -
增加了对 PyTorch v2.0.1 的支持
已知问题
-
在 DDP 模式下使用 SMDDP
AllReduce
训练时,CPU 内存逐渐增加会导致 CPU 内存泄漏问题。
集成到 SageMaker 框架容器中
此版本的 SMDDP 库通过了基准测试,并已迁移到以下SageMaker 框架
-
PyTorch v2.0.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker
此版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
其他改动
-
从本版本开始,SMDDP 库的全部文档都可以在本 A mazon SageMaker 开发者指南中找到。为了支持亚马逊开发者指南中包含的完整的 SMDDP v2 SageMaker 开发者指南,不再支持 Pyth SageMaker on SDK 文档中有关 SMDDP v1.x 的额外参考
文档。如果你还需要 SMP v1.x 文档,请参阅 Pyth SageMaker on SDK v2.212.0 文档中的以下文档快照。