亚马逊 SageMaker 分布式训练记本示例 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 SageMaker 分布式训练记本示例

以下案例研究和笔记本提供了为受支持的深度学习框架(PyTorch、TensorFlow 和 HuggingFace)实施 SageMaker 分布式培训库的示例,例如用于视觉的 CNN 和 MaskrCNN 以及用于自然语言处理的 BERT。

这些笔记本在SageMaker 示例 GitHub 知识库. 你也可以在SageMaker 示例网站.

这些示例设置为使用p3.16xlarge工作节点的实例,但你可以选择ml.p3dn.24xlarge要么ml.p4d.24xlarge实例类型, SageMaker 分布式培训库进行了优化。您可以使用单个节点的集群来测试笔记本电脑;但是,要查看性能改进,如训练基准部分中,使用多个节点(两个或更多)组成的群集。这些示例说明了您在其中修改此配置的部分。

博客和案例研究

以下博客讨论了有关使用 SageMaker 分布式培训库。

SageMaker 分布式数据并行

PyTorch 示例

SageMaker 分布式数据并行

SageMaker 分布式模型并行

TensorFlow 示例

SageMaker 分布式数据并行

SageMaker 分布式模型并行

HuggingFace 示例

以下 HuggingFace 上 SageMaker 示例可在HuggingFace 笔记本存储库.

SageMaker 分布式数据并行

SageMaker 分布式模型并行

如何访问或下载 SageMaker 分布式训练记本示例

按照说明访问或下载 SageMaker 分布式训练示例

选项 1:使用 SageMaker 笔记本实例

要使用上述示例,我们建议您使用亚马逊 SageMaker 笔记本实例。笔记本实例运行 Jupyter 笔记本并且 JupyterServer Amazon EC2 实例上的应用程序,针对机器学习进行了优化。如果您没有有效的笔记本实例,请按照中的说明操作创建笔记本实例中的 SageMaker 开发人员指南来创建一个。

创建实例之后,在笔记本实例的页面 SageMaker 控制台,执行以下操作:

  1. 打开JupyterLab.

  2. 选择示例图标 ( ) 在左边的托盘中。

  3. 浏览示例了解训练然后寻找标题为的笔记本并行数据要么并行分布式模型.

选项 2:克隆 SageMaker 示例存储库 SageMaker 工作室或笔记本实例

要下载并使用上述示例笔记本,请执行以下操作来克隆该示例 GitHub 存储库:

  1. 打开终端。

  2. 在命令行中,导航到 SageMaker folder。

    cd SageMaker
  3. 克隆SageMaker 示例 GitHub 知识库.

    git clone https://github.com/aws/amazon-sagemaker-examples.git
    注意

    下载HuggingFace 示例,克隆HuggingFace 笔记本 GitHub 知识库

    git clone https://github.com/huggingface/notebooks huggingface-notebooks
  4. 在 JupyterLab 界面,导航到amazon-sagemaker-examplesfolder。

  5. training/distributed_training文件夹中,有框架的文件夹,每个文件夹中都有用于data_parallelmodel_parallel. 选择您选择的示例,然后按照说明启动分布式培训,使用 SageMaker 分布式培训库。