

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 HyperPod Slurm 上运行训练作业
<a name="cluster-specific-configurations-run-training-job-hyperpod-slurm"></a>

SageMaker HyperPod Recipes 支持向 s GPU/Trainium lurm 集群提交训练作业。在提交训练作业之前，请更新集群配置。使用下列方法之一更新集群配置：
+ 修改 `slurm.yaml`
+ 通过命令行覆盖集群配置

更新集群配置后，安装环境。

## 配置集群
<a name="cluster-specific-configurations-configure-cluster-slurm-yaml"></a>

要向 Slurm 集群提交训练作业，请指定特定于 Slurm 的配置。修改 `slurm.yaml` 以配置 Slurm 集群。以下是 Slurm 集群配置示例。您可以根据自己的训练需求修改此文件：

```
job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"
```

1. `job_name_prefix`：指定作业名称前缀，以轻松识别您向 Slurm 集群提交的内容。

1. `slurm_create_submission_file_only`：将此配置设置为 True 以进行试运行，帮助您进行调试。

1. `stderr_to_stdout`：指定是否将标准错误（stderr）重定向到标准输出（stdout）。

1. `srun_args`：自定义其他 srun 配置，例如排除特定的计算节点。有关更多信息，请参阅 srun 文档。

1. `slurm_docker_cfg`: SageMaker HyperPod 配方启动器启动一个 Docker 容器来运行你的训练作业。您可以在此参数中指定其他 Docker 参数。

1. `container_mounts`：为配方启动程序指定将挂载到容器中的卷，以便训练作业访问这些卷中的文件。