Amazon SageMaker 分布式训练笔记本示例 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon SageMaker 分布式训练笔记本示例

以下案例研究和笔记本提供了示例,说明如何为支持的深度学习框架(PyTorch、TensorFlow 和 HuggingFace)及模型实施 SageMaker 分布式训练库,例如用于计算机视觉的 CNN 和 MaskRCNN,以及用于自然语言处理的 BERT。

这些笔记本在 SageMaker 示例 GitHub 存储库中提供。您也可以在 SageMaker 示例网站中浏览这些内容。

博客和案例研究

以下博客讨论了有关使用 SageMaker 分布式训练库的案例研究。

SageMaker 数据并行性库

SageMaker 模型并行性库

PyTorch 示例

SageMaker 数据并行性库

SageMaker 模型并行性库

TensorFlow 示例

SageMaker 数据并行性库

SageMaker 模型并行性库

HuggingFace 示例

以下 SageMaker 上的 HuggingFace 示例在 HuggingFace 笔记本存储库中提供。

SageMaker 数据并行性库

SageMaker 模型并行性库

如何访问或下载 SageMaker 分布式训练笔记本示例

按照说明访问或下载 SageMaker 分布式训练示例笔记本。

选项 1:使用 SageMaker 笔记本实例

要使用上述示例,我们建议您使用 Amazon SageMaker 笔记本实例。笔记本实例在 Amazon EC2 实例上运行 Jupyter 笔记本和 JupyterServer 应用程序,这些应用程序针对机器学习进行了优化。如果您没有有效的笔记本实例,请按照《SageMaker 开发人员指南》的创建笔记本实例中的说明创建一个。

创建实例之后,在 SageMaker 控制台的笔记本实例页面中,执行以下操作:

  1. 打开 JupyterLab

  2. 在左侧托盘中选择示例图标 ( )。

  3. 浏览训练的示例,查找标题为分布式数据并行分布式模型并行的笔记本。

选项 2:将 SageMaker 示例存储库克隆到 SageMaker Studio 或笔记本实例

要下载并使用上述示例笔记本,请执行以下操作来克隆示例 GitHub 存储库:

  1. 打开终端。

  2. 在命令行中,导航到 SageMaker 文件夹。

    cd SageMaker
  3. 克隆 SageMaker 示例 GitHub 存储库

    git clone https://github.com/aws/amazon-sagemaker-examples.git
    注意

    要下载 HuggingFace 示例笔记本,请克隆 HuggingFace 笔记本 GitHub 存储库:

    git clone https://github.com/huggingface/notebooks huggingface-notebooks
  4. 在 JupyterLab 界面中,导航到 amazon-sagemaker-examples 文件夹。

  5. training/distributed_training 文件夹中有用于框架的文件夹,这样的每个文件夹中都有用于 data_parallelmodel_parallel 的文件夹。选择您所需的示例,然后按照说明,使用 SageMaker 分布式训练库启动分布式训练。