本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
配置多个队列
配置多个队列
在Amazon ParallelCluster版本 3 中,您可以通过将设置Scheduler为slurm
并在配置文件SlurmQueues中指定多个队列来配置多个队列。在此模式下,不同的实例类型共存于配置文件ComputeResources部分中指定的计算节点中。 ComputeResources使用不同的实例类型可根据需要向上或向下扩展SlurmQueues。目前,您可以为ComputeResources每个队列指定最多五 (5) 个,最多可以指定十 (10) 个SlurmQueues。每个指定的队列对应于中的一个分区Slurm Workload Manager。有关更多信息,请参阅 Slurm Workload Manager (slurm)。
节点数
队列中的ComputeResources每个计算资源都必须具有唯一的NameInstanceType、MinCount、和MaxCount。 MinCount并MaxCount具有定义队列中计算资源的实例范围ComputeResources的默认值。您也可以为MinCount和指定自己的值MaxCount。中的每个计算资源都ComputeResources由从 1 到值的静态节点MinCount和从值到的值编号的MinCount动态节点组成MaxCount。
配置示例
以下是群集配置文件的 “调度” 部分的示例。在此配置中,有两个名为queue1
queue2
和的队列,每个队列ComputeResources都指定MaxCount了。
Scheduling: Scheduler: slurm SlurmQueues: - Name: queue1 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge - InstanceType: c4.xlarge MaxCount: 5 Name: c4xlarge - Name: queue2 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge
主机名
启动到计算队列中的实例是动态分配的。为每个节点生成主机名。主机名的格式如下:
$HOSTNAME=$QUEUE-$STATDYN-$COMPUTE_RESOURCE-$NODENUM
-
$QUEUE
是队列的名称。例如,如果该SlurmQueues部分的条目Name设置为 “queue-name
”,则 “$QUEUE
” 为 “queue-name
”。 -
$STATDYN
st
适用于静态节点或dy
动态节点。 -
$COMPUTE_RESOURCE
是与此Name节点对应的ComputeResources计算资源的。 -
$NODENUM
是节点的编号。$NODENUM
MinCount对于静态节点,介于一 (1) 和的值之间,MinCount对于动态节点,介于一 (1) 和 MaxCount-之间。
从上面的示例配置文件中,来自queue1
和计算资源的给定节点c5xlarge
有一个主机名:queue1-dy-c5xlarge-1
。
主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster
,其中$CLUSTERNAME
是群集的名称。