在 HyperPod Slurm 上运行训练作业 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 HyperPod Slurm 上运行训练作业

SageMaker HyperPod Recipes 支持向 s GPU/Trainium lurm 集群提交训练作业。在提交训练作业之前,请更新集群配置。使用下列方法之一更新集群配置:

  • 修改 slurm.yaml

  • 通过命令行覆盖集群配置

更新集群配置后,安装环境。

配置集群

要向 Slurm 集群提交训练作业,请指定特定于 Slurm 的配置。修改 slurm.yaml 以配置 Slurm 集群。以下是 Slurm 集群配置示例。您可以根据自己的训练需求修改此文件:

job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
  1. job_name_prefix:指定作业名称前缀,以轻松识别您向 Slurm 集群提交的内容。

  2. slurm_create_submission_file_only:将此配置设置为 True 以进行试运行,帮助您进行调试。

  3. stderr_to_stdout:指定是否将标准错误(stderr)重定向到标准输出(stdout)。

  4. srun_args:自定义其他 srun 配置,例如排除特定的计算节点。有关更多信息,请参阅 srun 文档。

  5. slurm_docker_cfg: SageMaker HyperPod 配方启动器启动一个 Docker 容器来运行你的训练作业。您可以在此参数中指定其他 Docker 参数。

  6. container_mounts:为配方启动程序指定将挂载到容器中的卷,以便训练作业访问这些卷中的文件。