使用 Python SageMaker SDK 使用 SMDDP 启动分布式训练作业 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Python SageMaker SDK 使用 SMDDP 启动分布式训练作业

要使用改编后的脚本运行分布式训练作业调整训练脚本以使用 SMDDP 集体操作,请使用 SageMaker Python SDK 的框架或通用估算器,将准备好的训练脚本指定为入口点脚本并将分布式训练配置指定为分布式训练配置。

本页将引导你了解如何通过两种方式使用 SageMaker AI Python SDK

  • 如果您想在 SageMaker AI 中快速采用分布式训练作业,请配置 A SageMaker I PyTorchTensorFlow框架估算器类。框架估算器会获取您的训练脚本,并根据为参数指定的值,自动匹配预构建 PyTorch 或 TensorFlow 深度学习容器 (DLC) 的正确图像 URI。framework_version

  • 如果您想扩展其中一个预建容器或构建一个自定义容器来创建自己的带有 SageMaker AI 的机器学习环境,请使用 A SageMaker I 通用Estimator类并指定托管在亚马逊弹性容器注册表 (Amazon ECR) 中的自定义 Docker 容器的映像 URI。

您的训练数据集应存储在启动训练作业的 A mazon S3 或 Amazon FSx for Lustre Amazon Web Services 区域 中。如果您使用 Jupyter 笔记本,则应在同一个 SageMaker 笔记本实例或 SageMaker Studio Classic 应用程序中运行。 Amazon Web Services 区域有关存储训练数据的更多信息,请参阅 SageMaker Python SDK 数据输入文档。

提示

我们建议您使用 Amazon f FSx or Lustre 而不是 Amazon S3 来提高训练绩效。与 Amazon S3 相比,Amazon FSx 具有更高的吞吐量和更低的延迟。

提示

要在启用 EFA 的实例类型上正确运行分布式训练,您应该通过设置 VPC 的安全组来启用实例之间的流量,允许所有进出安全组的流量。要了解如何设置安全组规则,请参阅 A mazon EC2 用户指南中的步骤 1:准备启用 EFA 的安全组

选择以下主题之一,了解如何运行训练脚本的分布式训练作业。启动训练作业后,您可以使用Amazon SageMaker 调试器或 Amazon 监控系统利用率和模型性能 CloudWatch。

在您按照以下主题中的说明来详细了解技术细节时,我们还建议您尝试通过Amazon SageMaker AI 数据并行库示例开始试用。