SageMaker 的模型并行性库
使用 Amazon SageMaker 的模型并行库来训练由于 GPU 内存限制而难以训练的大型深度学习 (DL) 模型。该库会自动将在多个 GPU 和实例之间高效地拆分模型。使用该库,您可以高效地训练具有数十亿或万亿参数的大型 DL 模型,从而更快地获得目标预测准确性。
使用该库后,您只需最少的代码更改,即可将自己的 TensorFlow 和 PyTorch 模型自动分区到多个 GPU 和多个节点上。您可以通过 SageMaker Python SDK 访问库的 API。
使用以下部分了解有关模型并行性和 SageMaker 模型并行库的更多信息。此库的 API 文档位于《SageMaker Python SDK 文档》的分布式训练 API
要查看库的最新更新,请参阅《SageMaker Python SDK 文档》中的 SageMaker 模型并行性发行说明