Slurm 配置 HyperPod 文件中管理哪些特定的配置 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Slurm 配置 HyperPod 文件中管理哪些特定的配置

当您在上创建 Slurm 集群时 HyperPod, HyperPod 代理会根据您的集群创建请求slurm.conf和生命周期脚本/opt/slurm/etc/将和gres.conf文件设置为管理 Slurm HyperPod 集群。以下列表显示了 HyperPod 代理处理和覆盖的特定参数。

重要

我们强烈建议您不要更改这些由管理的参数 HyperPod。

  • 在中 slurm.conf, HyperPod 设置以下基本参数:ClusterNameSlurmctldHostPartitionName、和NodeName

    此外,要启用该自动恢复功能, HyperPod 需要按以下方式设置TaskPluginSchedulerParameters参数。默认情况下, HyperPod 代理将这两个参数设置为所需的值。

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • 在中 gres.conf, HyperPod 管理 G NodeName PU 节点。