Amazon SageMaker 分布式培训笔记本示例 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 分布式培训笔记本示例

以下案例研究和笔记本提供了实施 SageMaker 分布式培训库的示例,用于支持的深度学习框架(PyTorch、TensorFlow 和 HuggFace)和模型,如 CNN 和 MaskrCNN 用于视觉,以及用于自然语言处理的 BERT。

这些笔记本电脑在SageMaker 示例 GitHub 存储库. 您还可以在SageMaker 示例网站.

这些示例设置为使用p3.16xlarge实例,但您可以选择ml.p3dn.24xlarge或者ml.p4d.24xlarge实例类型,SageMaker 分布式培训库已针对其进行优化。您可以使用单个节点的集群测试笔记本电脑;但是,要查看性能改进,如训练基准部分中,使用多个节点(两个或多个节点)的集群。这些示例列出了修改此配置的部分。

博客和案例研究

以下博客讨论了有关使用 SageMaker 分布式培训库的案例研究。

PyTorch 示例

SageMaker 分布式数据并行

SageMaker 分布式模型并行

TensorFlow 示例

SageMaker 分布式数据并行

SageMaker 分布式模型并行

拥抱面部示例

以下在 SageMaker 上的拥抱面部示例可以在拥抱面部笔记本电脑存储库.

SageMaker 分布式数据并行

SageMaker 分布式模型并行

如何访问或下载 SageMaker 分布式培训笔记本示例

按照说明访问或下载 SageMaker 分布式培训示例笔记本电脑。

选项 1:使用 SageMaker 笔记本实例

要使用上述示例,我们建议您使用 Amazon SageMaker 笔记本实例。笔记本实例在针对机器学习进行了优化的 Amazon EC2 实例上运行 Jupyter 笔记本和 JupyterServer 应用程序。如果您没有有效的笔记本实例,请按照创建笔记本实例在 SageMaker 开发人员指南中创建一个。

创建实例之后,在笔记本实例页面,请执行以下操作:

  1. 打开JupyterLab.

  2. 选择示例图标 ( )在左托盘中。

  3. 浏览示例训练并查找标题为并行分布式数据或者分布式模型并行.

选项 2:将 SageMaker 示例存储库克隆到 SageMaker 工作室或笔记本实例

要下载并使用上述笔记本示例,请执行以下操作来克隆示例 GitHub 存储库:

  1. 打开终端。

  2. 在命令行中,导航到 SageMaker 文件夹。

    $ cd SageMaker
  3. 克隆SageMaker 示例 GitHub 存储库.

    git clone https://github.com/aws/amazon-sagemaker-examples.git
    注意

    下载HggingFace 示例笔记本,克隆拥抱笔记本电脑 GitHub 存储库

    git clone https://github.com/huggingface/notebooks huggingface-notebooks
  4. 在 JupyterLab 界面中,导航到amazon-sagemaker-examplesfolder。

  5. training/distributed_training文件夹中,有框架文件夹,其中每个文件夹都有data_parallelmodel_parallel. 选择您选择的示例,并按照说明使用 SageMaker 分布式培训库启动分布式培训。