在 L PyTorch ightning 训练脚本中使用 SMDDP 库

如果您想使用 PyTorchLightning 训练脚本并在 SageMaker AI 中运行分布式数据并行训练作业，则只需对训练脚本进行最少更改即可运行训练作业。必要的更改包括：导入smdistributed.dataparallel库的 PyTorch 模块，设置 L PyTorch ightning 的环境变量以接受 SageMaker 训练工具包预设的 SageMaker AI 环境变量，以及通过将流程组后端设置为来激活 SMDDP 库。"smddp"要了解详情，请仔细阅读以下分别介绍了各个步骤并提供代码示例的说明。

注意

PyTorch Lightning 支持在 SageMaker AI 数据并行库 v1.5.0 及更高版本中可用。

导入 pytorch_lightning 库和 smdistributed.dataparallel.torch 模块。


import lightning as pl
import smdistributed.dataparallel.torch.torch_smddp

实例化。LightningEnvironment


from lightning.fabric.plugins.environments.lightning import LightningEnvironment

env = LightningEnvironment()
env.world_size = lambda: int(os.environ["WORLD_SIZE"])
env.global_rank = lambda: int(os.environ["RANK"])

对于 PyTorch DDP — 使用 for process_group_backend 和 "gpu" for 创建DDPStrategy类"smddp"的对象accelerator，然后将其传递给 T rainer 类。


import lightning as pl
from lightning.pytorch.strategies import DDPStrategy

ddp = DDPStrategy(
    cluster_environment=env, 
    process_group_backend="smddp", 
    accelerator="gpu"
)

trainer = pl.Trainer(
    max_epochs=200, 
    strategy=ddp, 
    devices=num_gpus, 
    num_nodes=num_nodes
)

对于 PyTorch FSDP — 使用 for process_group_backend 和 "gpu" for 创建FSDPStrategy类的对象（可选择包装策略）accelerator，然后将其传递给 T rainer 类。"smddp"


import lightning as pl
from lightning.pytorch.strategies import FSDPStrategy

from functools import partial
from torch.distributed.fsdp.wrap import size_based_auto_wrap_policy

policy = partial(
    size_based_auto_wrap_policy, 
    min_num_params=10000
)

fsdp = FSDPStrategy(
    auto_wrap_policy=policy,
    process_group_backend="smddp", 
    cluster_environment=env
)

trainer = pl.Trainer(
    max_epochs=200, 
    strategy=fsdp, 
    devices=num_gpus, 
    num_nodes=num_nodes
)

调整完训练脚本后，继续到使用 Python SageMaker SDK 使用 SMDDP 启动分布式训练作业。

注意

构建 A SageMaker I PyTorch 估算器并在中提交训练任务请求时使用 Python SageMaker SDK 使用 SMDDP 启动分布式训练作业，需要在 SageMaker AI PyTorch 训练requirements.txt容器lightning-bolts中提供安装pytorch-lightning和。


# requirements.txt
pytorch-lightning
lightning-bolts

有关指定存放requirements.txt文件以及训练脚本和作业提交的源目录的更多信息，请参阅 Amazon A SageMaker I Python SDK 文档中的使用第三方库。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

PyTorch

TensorFlow （已弃用）