本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Slurm 配置自定义
从 3.6.0 Amazon ParallelCluster 版开始,您可以自定义 slurm.conf Slurm Amazon ParallelCluster 集群配置中的配置。
在集群配置中,您可以自定义 Slurm 使用以下集群配置设置配置参数:
- 
   自定义 Slurm 使用 SlurmSettings/CustomSlurmSettings或参数为整个集群CustomSlurmSettingsIncludeFile设置参数。 Amazon ParallelCluster 如果同时指定两者,则失败。 
- 
   自定义 Slurm 使用 SlurmQueues/为队列设置参数 CustomSlurmSettings(映射到 Slurm 分区)。 
- 
   自定义 Slurm 使用 SlurmQueues/ComputeResources/为计算资源设置参数 CustomSlurmSettings(映射到 Slurm 节点)。 
Slurm 配置自定义限制和使用时的注意事项 Amazon ParallelCluster
- 
     对于 CustomSlurmSettings和CustomSlurmSettingsIncludeFile设置,您只能指定和更新包含在中的slurm.conf参数 Slurm 您用于配置集群的 Amazon ParallelCluster 版本所支持的版本。
- 
    如果您指定自定义 Slurm 在任何 CustomSlurmSettings参数中进行配置, Amazon ParallelCluster 执行验证检查并阻止设置或更新 Slurm 与 Amazon ParallelCluster 逻辑冲突的配置参数。这些区域有:Slurm 已知与 Amazon ParallelCluster 之冲突的配置参数在拒绝列表中标识。如果有其他情况,拒绝列表可能会在 future Amazon ParallelCluster 版本中发生变化 Slurm 功能已添加。有关更多信息,请参阅 被拒登名单 Slurm 的配置参数 CustomSlurmSettings。
- 
    Amazon ParallelCluster 仅检查参数是否在拒绝列表中。 Amazon ParallelCluster 无法验证您的自定义 Slurm 配置参数语法或语义。您有责任验证您的自定义 Slurm 配置参数。无效的自定义 Slurm 配置参数可能导致 Slurm 守护程序失败可能导致集群创建和更新失败。 
- 
    如果您指定自定义 Slurm 中的配置 CustomSlurmSettingsIncludeFile, Amazon ParallelCluster 不执行任何验证。
- 
    您可以更新 CustomSlurmSettings和CustomSlurmSettingsIncludeFile而不停止然后启动计算实例集。在这种情况下, Amazon ParallelCluster 重新启动slurmctld守护程序并运行命令。scontrol reconfigure一段时间 Slurm 在整个集群中注册更改之前,可能需要对配置参数进行不同的操作。例如,它们可能需要重启集群中的所有进程守护程序。您有责任验证 Amazon ParallelCluster 操作是否足以传播您的自定义内容 Slurm 更新期间的配置参数设置。如果您发现 Amazon ParallelCluster 操作还不够,则您有责任按照中的建议提供传播更新后的设置所需的额外操作 Slurm 文档 。 
被拒登名单 Slurm 的配置参数 CustomSlurmSettings
  下表列出了拒绝使用参数的 Amazon ParallelCluster 版本(从 3.6.0 版本开始)。 CustomSlurmSettings3.6.0 之前的 Amazon ParallelCluster 版本不支持。
| Slurm 参数 | 已在版本中列出拒绝 Amazon ParallelCluster | 
|---|---|
| CommunicationParameters | 3.6.0 | 
| Epilog | 3.6.0 | 
| GresTypes | 3.6.0 | 
| LaunchParameters | 3.6.0 | 
| Prolog | 3.6.0 | 
| ReconfigFlags | 3.6.0 | 
| ResumeFailProgram | 3.6.0 | 
| ResumeProgram | 3.6.0 | 
| ResumeTimeout | 3.6.0 | 
| SlurmctldHost | 3.6.0 | 
| SlurmctldLogFile | 3.6.0 | 
| SlurmctldParameters | 3.6.0 | 
| SlurmdLogfile | 3.6.0 | 
| SlurmUser | 3.6.0 | 
| SuspendExcNodes | 3.6.0 | 
| SuspendProgram | 3.6.0 | 
| SuspendTime | 3.6.0 | 
| TaskPlugin | 3.6.0 | 
| TreeWidth | 3.6.0 | 
| Slurm 参数 | 已在版本中列出拒绝 Amazon ParallelCluster | 
|---|---|
| AccountingStorageType | 3.6.0 | 
| AccountingStorageHost | 3.6.0 | 
| AccountingStoragePort | 3.6.0 | 
| AccountingStorageUser | 3.6.0 | 
| JobAcctGatherType | 3.6.0 | 
| Slurm 参数 | 已在版本中列出拒绝 Amazon ParallelCluster | 
|---|---|
| Nodes | 3.6.0 | 
| PartitionName | 3.6.0 | 
| ResumeTimeout | 3.6.0 | 
| State | 3.6.0 | 
| SuspendTime | 3.6.0 | 
| Slurm 参数 | 已在版本和更高 Amazon ParallelCluster 版本中列出 “拒绝” | 
|---|---|
| CPUs | 3.6.0 | 
| Features | 3.6.0 | 
| Gres | 3.6.0 | 
| NodeAddr | 3.6.0 | 
| NodeHostname | 3.6.0 | 
| NodeName | 3.6.0 | 
| 权重 | 3.7.0 |