本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker AI 数据并行库示例
本页提供 Jupyter Notebook,介绍实施 SageMaker 分布式数据并行(SMDDP)库在 SageMaker AI 上运行分布式训练作业的示例。
博客和案例研究
以下博客将讨论有关使用 SMDDP 库的案例研究。
SMDDP v2 博客
-
Enable faster training with Amazon SageMaker AI data parallel library
,Amazon 机器学习博客(2023 年 12 月 05 日)
SMDDP v1 博客
-
How I trained 10TB for Stable Diffusion on SageMaker AI
,Medium(2022 年 11 月 29 日) -
在 Amazon SageMaker Training 上运行 PyTorch Lightning 和原生 PyTorch DDP,并提供 Amazon 搜索
,Amazon 机器学习博客(2022 年 8 月 18 日) -
Training YOLOv5 on Amazon with PyTorch and the SageMaker AI distributed data parallel library
,Medium(2022 年 5 月 6 日) -
Speed up EfficientNet model training on SageMaker AI with PyTorch and the SageMaker AI distributed data parallel library
,Medium(2022 年 3 月 21 日) -
Speed up EfficientNet training on Amazon with the SageMaker AI distributed data parallel library
,Towards Data Science(2022 年 1 月 12 日) -
Hyundai reduces ML model training time for autonomous driving models using Amazon SageMaker AI
,Amazon 机器学习博客(2021 年 6 月 25 日) -
Distributed Training: Train BART/T5 for Summarization using Transformers and Amazon SageMaker AI
,Hugging Face 网站(2021 年 4 月 8 日)
示例笔记本
示例笔记本在 SageMaker AI 示例 GitHub 存储库training/distributed_training/pytorch/data_parallel。
注意
在以下 SageMaker AI ML IDE 中克隆并运行示例笔记本。
-
SageMaker AI JupyterLab(在 2023 年 12 月之后创建的 Studio 中可用)
-
SageMaker AI 代码编辑器(在 2023 年 12 月之后创建的 Studio 中可用)
-
Studio Classic(可作为 2023 年 12 月之后创建的 Studio 中的应用程序使用)
git clone https://github.com/aws/amazon-sagemaker-examples.git cd amazon-sagemaker-examples/training/distributed_training/pytorch/data_parallel
SMDDP v2 示例
SMDDP v1 示例