本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SMDDP使用 SageMaker Python 启动分布式训练作业 SDK
要使用改编后的脚本运行分布式训练作业调整训练脚本以使用SMDDP集体操作,请使用 SageMaker Python SDK 的框架或通用估计器,将准备好的训练脚本指定为入口点脚本和分布式训练配置。
本页将向您介绍如何以两种SDK方式使用 SageMaker Python
-
如果您想在中快速采用分布式训练作业 SageMaker,请配置 SageMaker PyTorch
或TensorFlow 框架估算器类。框架估算器会获取您的训练脚本,并根据为参数指定的值,自动匹配预先构建URI的 PyTorch 或 Dee TensorFlow p Learning Containers (DLC) 的正确图像。 framework_version
-
如果您想扩展其中一个预建容器或构建自定义容器来创建自己的机器学习环境 SageMaker,请使用 SageMaker 通用
Estimator
类并指定托管在亚马逊弹性容器注册表 (Amazon) 中的自定义 Docker 容器的映像URI。ECR
您的训练数据集应存储在启动训练作业的 A mazon S3 或 Amazon FSx for Lustre Amazon Web Services 区域 中。如果您使用 Jupyter 笔记本,则应在同一个 SageMaker 笔记本实例或 SageMaker Studio Classic 应用程序中运行。 Amazon Web Services 区域有关存储训练数据的更多信息,请参阅 SageMaker Python SDK 数据输入
提示
我们建议您使用 Amazon f FSx or Lustre 而不是 Amazon S3 来提高训练绩效。与 Amazon S3 相比,亚马逊FSx具有更高的吞吐量和更低的延迟。
提示
要在EFA已启用的实例类型上正确运行分布式训练,您应通过将您的VPC安全组设置为允许所有进出安全组本身的入站和出站流量来启用实例之间的流量。要了解如何设置安全组规则,请参阅 Amazon EC2 用户指南中的步骤 1:准备EFA启用安全组。
选择以下主题之一,获取有关如何运行训练脚本的分布式训练作业的说明。启动训练作业后,您可以使用Amazon SageMaker 调试器或 Amazon 监控系统利用率和模型性能 CloudWatch。
在您按照以下主题中的说明来详细了解技术细节时,我们还建议您尝试通过Amazon SageMaker 数据并行库示例开始试用。