Amazon SageMaker 分布式训练笔记本示例
以下案例研究和笔记本提供了示例,说明如何为支持的深度学习框架(PyTorch、TensorFlow 和 HuggingFace)及模型实施 SageMaker 分布式训练库,例如用于计算机视觉的 CNN 和 MaskRCNN,以及用于自然语言处理的 BERT。
这些笔记本在 SageMaker 示例 GitHub 存储库
博客和案例研究
以下博客讨论了有关使用 SageMaker 分布式训练库的案例研究。
SageMaker 数据并行性库
我如何在 SageMaker 上进行 10TB 的 Stable Diffusion 训练
,Medium(2022 年 11 月 29 日) 在 Amazon SageMaker Training 上运行 PyTorch Lightning 和原生 PyTorch DDP,并提供 Amazon 搜索
,Amazon 机器学习博客(2022 年 8 月 18 日) 使用 PyTorch 和 SageMaker 分布式数据库在 Amazon 上训练 YOLOv5
,Medium(2022 年 5 月 6 日) 使用 PyTorch 和 SageMaker 分布式数据库,加快 SageMaker 上的 EfficientNet 模型训练
,Medium(2022 年 3 月 21 日) 使用 SageMaker 分布式数据并行库加快 Amazon 上的 EfficientNet 训练
,Towards Data Science(2022 年 1 月 12 日) -
Hyundai 使用 Amazon SageMaker 缩短自动驾驶模型的 ML 模型训练时间
,Amazon 机器学习博客(2021 年 6 月 25 日) -
分布式训练:使用转换器和 Amazon SageMaker 训练 BART/T5 进行摘要处理
,Hugging Face 网站(2021 年 4 月 8 日)
SageMaker 模型并行性库
Amazon SageMaker 模型并行性库中的新性能改进
,Amazon 机器学习博客(2022 年 12 月 16 日) -
在 Amazon SageMaker 上使用分片数据并行性,以近线性扩展方式训练巨型模型
,Amazon 机器学习博客(2022 年 10 月 31 日)
PyTorch 示例
SageMaker 数据并行性库
SageMaker 模型并行性库
TensorFlow 示例
SageMaker 数据并行性库
SageMaker 模型并行性库
HuggingFace 示例
以下 SageMaker 上的 HuggingFace 示例在 HuggingFace 笔记本存储库
SageMaker 数据并行性库
SageMaker 模型并行性库
如何访问或下载 SageMaker 分布式训练笔记本示例
按照说明访问或下载 SageMaker 分布式训练示例笔记本。
选项 1:使用 SageMaker 笔记本实例
要使用上述示例,我们建议您使用 Amazon SageMaker 笔记本实例。笔记本实例在 Amazon EC2 实例上运行 Jupyter 笔记本和 JupyterServer 应用程序,这些应用程序针对机器学习进行了优化。如果您没有有效的笔记本实例,请按照《SageMaker 开发人员指南》的创建笔记本实例中的说明创建一个。
创建实例之后,在 SageMaker 控制台的笔记本实例页面中,执行以下操作:
-
打开 JupyterLab。
-
在左侧托盘中选择示例图标 ( )。
-
浏览训练的示例,查找标题为分布式数据并行或分布式模型并行的笔记本。
选项 2:将 SageMaker 示例存储库克隆到 SageMaker Studio 或笔记本实例
要下载并使用上述示例笔记本,请执行以下操作来克隆示例 GitHub 存储库:
-
打开终端。
-
在命令行中,导航到 SageMaker 文件夹。
cd SageMaker
-
git clone https://github.com/aws/amazon-sagemaker-examples.git
注意
要下载 HuggingFace 示例笔记本,请克隆 HuggingFace 笔记本 GitHub 存储库
: git clone https://github.com/huggingface/notebooks huggingface-notebooks
-
在 JupyterLab 界面中,导航到
amazon-sagemaker-examples
文件夹。 -
training/distributed_training
文件夹中有用于框架的文件夹,这样的每个文件夹中都有用于data_parallel
和model_parallel
的文件夹。选择您所需的示例,然后按照说明,使用 SageMaker 分布式训练库启动分布式训练。