本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊 SageMaker 分布式训练记本示例
以下案例研究和笔记本提供了为受支持的深度学习框架(PyTorch、TensorFlow 和 HuggingFace)实施 SageMaker 分布式培训库的示例,例如用于视觉的 CNN 和 MaskrCNN 以及用于自然语言处理的 BERT。
这些笔记本在SageMaker 示例 GitHub 知识库
这些示例设置为使用p3.16xlarge
工作节点的实例,但你可以选择ml.p3dn.24xlarge
要么ml.p4d.24xlarge
实例类型, SageMaker 分布式培训库进行了优化。您可以使用单个节点的集群来测试笔记本电脑;但是,要查看性能改进,如训练基准部分中,使用多个节点(两个或更多)组成的群集。这些示例说明了您在其中修改此配置的部分。
博客和案例研究
以下博客讨论了有关使用 SageMaker 分布式培训库。
SageMaker 分布式数据并行
PyTorch 示例
SageMaker 分布式数据并行
SageMaker 分布式模型并行
TensorFlow 示例
SageMaker 分布式数据并行
SageMaker 分布式模型并行
HuggingFace 示例
以下 HuggingFace 上 SageMaker 示例可在HuggingFace 笔记本存储库
SageMaker 分布式数据并行
SageMaker 分布式模型并行
如何访问或下载 SageMaker 分布式训练记本示例
按照说明访问或下载 SageMaker 分布式训练示例
选项 1:使用 SageMaker 笔记本实例
要使用上述示例,我们建议您使用亚马逊 SageMaker 笔记本实例。笔记本实例运行 Jupyter 笔记本并且 JupyterServer Amazon EC2 实例上的应用程序,针对机器学习进行了优化。如果您没有有效的笔记本实例,请按照中的说明操作创建笔记本实例中的 SageMaker 开发人员指南来创建一个。
创建实例之后,在笔记本实例的页面 SageMaker 控制台,执行以下操作:
-
打开JupyterLab.
-
选择示例图标 (
) 在左边的托盘中。
-
浏览示例了解训练然后寻找标题为的笔记本并行数据要么并行分布式模型.
选项 2:克隆 SageMaker 示例存储库 SageMaker 工作室或笔记本实例
要下载并使用上述示例笔记本,请执行以下操作来克隆该示例 GitHub 存储库:
-
打开终端。
-
在命令行中,导航到 SageMaker folder。
cd SageMaker
-
git clone https://github.com/aws/amazon-sagemaker-examples.git
注意 下载HuggingFace 示例,克隆HuggingFace 笔记本 GitHub 知识库
: git clone https://github.com/huggingface/notebooks huggingface-notebooks
-
在 JupyterLab 界面,导航到
amazon-sagemaker-examples
folder。 -
在
training/distributed_training
文件夹中,有框架的文件夹,每个文件夹中都有用于data_parallel
和model_parallel
. 选择您选择的示例,然后按照说明启动分布式培训,使用 SageMaker 分布式培训库。