Slurm 配置自定义 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Slurm 配置自定义

从 Amazon ParallelCluster 版本 3.6.0 开始,您可以在 Amazon ParallelCluster 集群配置中自定义 slurm.conf Slurm 配置。

在集群配置中,您可以使用以下集群配置设置来自定义 Slurm 配置参数:

使用 Amazon ParallelCluster 时的 Slurm 配置自定义限制和注意事项

  • 对于 CustomSlurmSettingsCustomSlurmSettingsIncludeFile 设置,您只能指定和更新用于配置集群的 Amazon ParallelCluster 版本所支持的 Slurm 版本中包含的 slurm.conf 参数。

  • 如果您在任何 CustomSlurmSettings 参数中指定了自定义 Slurm 配置,则 Amazon ParallelCluster 会执行验证检查并防止设置或更新与 Amazon ParallelCluster 逻辑冲突的 Slurm 配置参数。已知与 Amazon ParallelCluster 冲突的 Slurm 配置参数在拒绝列表中标识。如果添加了其他 Slurm 功能,则在未来的 Amazon ParallelCluster 版本中,拒绝列表可能会发生变化。有关更多信息,请参阅 CustomSlurmSettings 的列入拒绝列表的 Slurm 配置参数

  • Amazon ParallelCluster 仅检查参数是否在拒绝列表中。Amazon ParallelCluster 不会验证自定义 Slurm 配置参数的语法或语义。您负责验证自己的自定义 Slurm 配置参数。无效的自定义 Slurm 配置参数可能会导致 Slurm 进程守护程序失败,从而导致集群创建和更新失败。

  • 如果您在 CustomSlurmSettingsIncludeFile 中指定自定义 Slurm 配置,Amazon ParallelCluster 不会执行任何验证。

  • 您可以更新 CustomSlurmSettingsCustomSlurmSettingsIncludeFile 而不停止然后启动计算实例集。在这种情况下,Amazon ParallelCluster 将会重启 slurmctld 进程守护程序并运行 scontrol reconfigure 命令。

    在整个集群中注册更改之前,某些 Slurm 配置参数可能需要不同的操作。例如,它们可能需要重启集群中的所有进程守护程序。您负责验证 Amazon ParallelCluster 操作是否足以在更新过程中传播您的自定义 Slurm 配置参数设置。如果发现 Amazon ParallelCluster 操作不够,则您有责任按照 Slurm 文档中的建议提供其他操作以传播更新的设置。

CustomSlurmSettings 的列入拒绝列表的 Slurm 配置参数

下表列出了各 Amazon ParallelCluster 版本中拒绝使用的参数,从版本 3.6.0 开始。3.6.0 之前的 Amazon ParallelCluster 版本不支持 CustomSlurmSettings

集群级别列入拒绝列表的参数:
Slurm 参数 拒绝列表所在的 Amazon ParallelCluster 版本

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

Prolog

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

在集群配置中配置了本机 Slurm 会计集成时在集群级别列入拒绝列表的参数:
Slurm 参数 拒绝列表所在的 Amazon ParallelCluster 版本

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

由 Amazon ParallelCluster 托管的队列在队列(分区)级别列入拒绝列表的参数:
Slurm 参数 拒绝列表所在的 Amazon ParallelCluster 版本

Nodes

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

State

3.6.0

SuspendTime

3.6.0

由 Amazon ParallelCluster 托管的计算资源在计算资源(节点)级别列入拒绝列表的参数:
Slurm 参数 拒绝列表所在的 Amazon ParallelCluster 版本和更高版本

CPUs

3.6.0

Features

3.6.0

Gres

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

Weight

3.7.0