SageMaker模型并行库的扩展功能 PyTorch - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker模型并行库的扩展功能 PyTorch

除了其核心功能外, SageMaker 模型并行库还提供用于训练深度学习模型的内存节省功能 PyTorch:张量并行、优化器状态分片、激活检查点和激活卸载。

注意

可通过Deep Learning Containers 获得扩展的内存节省功能 PyTorch,该容器实现了 v1.6.0 或更高版本的 SageMaker 模型并行度库。

对于以下每项功能,您将保持本使用模型并行运行 SageMaker 分布式训练Job节中显示的相同两步工作流程,并在 SageMaker PyTorch估算器和训练脚本中添加一些额外的参数和代码行。

要查找如何使用扩展功能的示例,请参阅使用 PyTorch 1.8.1 训练 GPT-2 和使用 SageMaker 模型并行度库进行 Tensor 并行度