本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker的分布式模型并行
要将新功能与现有笔记本实例或 Studio 应用程序结合使用,请重新启动它以获取最新更新。
Amazon SageMaker的分布式模型并行库( 库)可用于训练大型深度学习模型,以前由于 GPU 内存限制而难以训练这些模型。该库自动且有效地将模型拆分到多个 GPUs和实例,并协调模型训练,从而使您能够通过创建具有更多参数的较大模型来提高预测准确性。
您可以使用 库跨多个 GPUs 自动对现有 TensorFlow和 PyTorch 工作负载进行分区,只需进行最少的代码更改。您可以通过 SageMaker 开发工具包访问库的 API。
可以使用以下部分了解有关模型并行度和SageMaker模型并行库的更多信息。此库的 API 文档位于SageMaker分布式训练 APIs 下的