分布式训练 Jupyter 笔记本示例 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分布式训练 Jupyter 笔记本示例

以下笔记本提供了用于常用深度学习框架和模型的 Amazon SageMaker 分布式实施示例。对于视觉(图像)模型,请尝试 MNIST 或 MaskRCNN。 对于语言(文本)模型,请尝试 BERT。

这些笔记本在 SageMaker 示例存储库中提供。您也可以在 SageMaker 示例网站上浏览它们。

这些示例设置为将 p3.16xlarge 实例用于工作线程节点,但如果您愿意,可以选择其他 p3 实例类型。您可以使用仅具有 1 个节点的集群来测试笔记本,但要了解任何性能优势,您应使用具有多个节点(2 个或更多节点)的集群。这些示例将说明您在其中修改此配置的部分。

PyTorch 示例

SageMaker 分布式数据并行

SageMaker 分布式模型并行

TensorFlow 示例

SageMaker 分布式数据并行

SageMaker 分布式模型并行

使用 SageMaker 笔记本实例

要使用提供的示例,我们建议您使用 Amazon SageMaker 笔记本实例。笔记本实例是一个运行 Jupyter 笔记本和 – 应用程序的机器学习 (ML)Amazon EC2优化的 JupyterServer 实例。如果您没有活动的笔记本实例,请按照 创建笔记本实例 开发人员指南SageMaker 中的说明创建一个。

在创建实例后,在 控制台的 Notebook instances (笔记本实例)SageMaker 区域中,执行以下操作:

  1. 打开 JupyterLab

  2. 选择示例图标 ( ) (在左侧托盘中)。

  3. 浏览 Training 的示例并查找标题为 Distributed Data ParallelDistributed Model Parallel 的笔记本。

使用 SageMaker Studio

您可以在 SageMaker Studio 中运行这些示例 Jupyter Notebooks。要下载并使用示例笔记本,请在 Studio 中执行以下操作:

  1. 打开终端。

  2. 在命令行中,导航到 SageMaker 文件夹。

    $ cd SageMaker
  3. 克隆 SageMaker 示例存储库。

    git clone https://github.com/aws/amazon-sagemaker-examples.git
  4. 在 JupyterLab 界面中,导航到 amazon-sagemaker-examples 文件夹。

  5. training/distributed_training 文件夹中,有用于框架的文件夹,在每个文件夹中,有用于 data_parallelmodel_parallel 的文件夹。 选择您选择的示例,然后按照说明使用 SageMaker 分布式训练库启动分布式训练。