配置多个队列 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置多个队列

配置多个队列

与Amazon ParallelCluster版本 3,您可以通过设置Schedulerslurm并指定多个队列SlurmQueues在配置文件中。在此模式下,不同的实例类型在中指定的计算节点中共存ComputeResources部分的配置文件。ComputeResources对于不同的实例类型,可根据需要扩展或缩小SlurmQueues. 目前,最多可以指定五 (5)ComputeResources每个队列最多可以有十 (10)SlurmQueues. 每个指定的队列对应于Slurm Workload Manager. 有关更多信息,请参阅 Slurm Workload Manager (slurm)

节点计数

中的每个计算资源ComputeResources对于队列必须有一个唯一的NameInstanceTypeMinCount, 和MaxCount.MinCountMaxCount具有定义中计算资源的实例范围的默认值ComputeResources对于队列。您还可以为其指定自己的值MinCountMaxCount. 中的每个计算资源ComputeResources由编号从 1 到值的静态节点组成MinCount和动态节点的值来编号MinCount到的价值MaxCount.

示例配置

以下是一个示例:计划部分的集群配置文件。在此配置中,有两个队列名为queue1queue2每个队列都有ComputeResources有指定的MaxCount.

Scheduling: Scheduler: slurm SlurmQueues: - Name: queue1 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge - InstanceType: c4.xlarge MaxCount: 5 Name: c4xlarge - Name: queue2 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge

hostName

启动到计算队列的实例是动态分配的。为每个节点生成主机名。主机名的格式如下:

$HOSTNAME=$QUEUE-$STATDYN-$COMPUTE_RESOURCE-$NODENUM

  • $QUEUE是队列的名称。例如,如果SlurmQueues部分有一个条目,其中包含Name设置为”queue-name” 然后”$QUEUE” 是”queue-name”。

  • $STATDYNst对于静态节点或dy对于动态节点。

  • $COMPUTE_RESOURCENameComputeResources与此节点对应的计算资源。

  • $NODENUM是节点的编号。$NODENUM介于一 (1) 和的值之间MinCount对于静态节点以及介于一 (1) 和之间MaxCount-MinCount对于动态节点。

从上面的示例配置文件中,给定的节点来自queue1和计算资源c5xlarge有主机名:queue1-dy-c5xlarge-1.

主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster,其中,$CLUSTERNAME是集群的名称。