本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker 数据并行库示例
本页提供了 Jupyter 笔记本,这些笔记本提供了实现 SageMaker分布式数据并行度 (SMDDP) 库以运行分布式训练作业的示例。 SageMaker
博客和案例研究
以下博客讨论了有关使用 SMDDP 库的案例研究。
SMDDP v2 博客
-
使用亚马逊 SageMaker 数据并行库实现更快的训练
,M Amazon achine Learning 博客(2023 年 12 月 5 日)
SMDDP v1 博客
-
我是如何在中等模式下训练 10TB 以实现稳定扩散
的(2022 年 11 月 29 日) SageMaker -
在亚马逊 SageMaker 培训上运行 PyTorch Lightning 和原生 PyTorch DDP,其中包括亚马逊搜索、Amazon Machine Le
arnin g 博客(2022 年 8 月 18 日) -
Amazon 使用 PyTorch SageMaker 分布式数据并行库训练 YOLOV5
,M edium(2022 年 5 月 6 日) -
SageMaker 使用 PyTorch SageMaker 分布式数据并行库 M ed ium 加速 EfficientNet 模型训练
(2022 年 3 月 21 日) -
Amazon 使用 SageMaker 分布式数据并行库《迈向数据科学》加快 EfficientNet 训练速度
(2022 年 1 月 12 日) -
现代汽车使用亚马逊缩短自动驾驶模型的Amazon 机器学习模型训练时间 SageMaker,Mac
hine Learning Blog(2021年6月25日) -
分布式训练:使用《变形金刚》和 SageMaker Hugging Face 网站 Amazon 训练 BART/T5 进行总结
(2021 年 4 月 8 日)
示例笔记本
示例 GitHub 存储库中提供了SageMaker 示例training/distributed_training/pytorch/data_parallel
。
注意
在以下 SageMaker ML IDE 中克隆并运行示例笔记本。
-
SageMaker JupyterLab(在 2023 年 12 月之后创建的工作室中可用)
-
SageMaker 代码编辑器(在 2023 年 12 月之后创建的 Studio 中可用)
-
Studio Classic(作为应用程序在 2023 年 12 月之后创建的 Studio 中
git clone https://github.com/aws/amazon-sagemaker-examples.git cd amazon-sagemaker-examples/training/distributed_training/pytorch/data_parallel
SMDDP v2 示例
SMDDP v1 示例