本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker模型并行库的扩展功能 PyTorch
除了其核心功能外, SageMaker 模型并行库还提供用于训练深度学习模型的内存节省功能 PyTorch:张量并行、优化器状态分片、激活检查点和激活卸载。
注意
可通过Deep Learning Containers 获得扩展的内存节省功能 PyTorch,该容器实现了 v1.6.0 或更高版本的 SageMaker 模型并行度库。
对于以下每项功能,您将保持本使用模型并行运行 SageMaker 分布式训练Job节中显示的相同两步工作流程,并在 SageMaker PyTorch
估算器和训练脚本中添加一些额外的参数和代码行。
要查找如何使用扩展功能的示例,请参阅使用 PyTorch 1.8.1 训练 GPT-2 和使用 SageMaker 模型并行度库进行 Tensor 并行度