配置多个队列 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置多个队列

配置多个队列

在Amazon ParallelCluster版本 3 中,您可以通过将设置Schedulerslurm并在配置文件SlurmQueues中指定多个队列来配置多个队列。在此模式下,不同的实例类型共存于配置文件ComputeResources部分中指定的计算节点中。 ComputeResources使用不同的实例类型可根据需要向上或向下扩展SlurmQueues。目前,您可以为ComputeResources每个队列指定最多五 (5) 个,最多可以指定十 (10) 个SlurmQueues。每个指定的队列对应于中的一个分区Slurm Workload Manager。有关更多信息,请参阅 Slurm Workload Manager (slurm)

节点数

队列中的ComputeResources每个计算资源都必须具有唯一的NameInstanceTypeMinCount、和MaxCountMinCountMaxCount具有定义队列中计算资源的实例范围ComputeResources的默认值。您也可以为MinCount和指定自己的值MaxCount。中的每个计算资源都ComputeResources由从 1 到值的静态节点MinCount和从值到的值编号的MinCount动态节点组成MaxCount

配置示例

以下是群集配置文件的 “调度” 部分的示例。在此配置中,有两个名为queue1queue2和的队列,每个队列ComputeResources都指定MaxCount了。

Scheduling: Scheduler: slurm SlurmQueues: - Name: queue1 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge - InstanceType: c4.xlarge MaxCount: 5 Name: c4xlarge - Name: queue2 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge

主机名

启动到计算队列中的实例是动态分配的。为每个节点生成主机名。主机名的格式如下:

$HOSTNAME=$QUEUE-$STATDYN-$COMPUTE_RESOURCE-$NODENUM

  • $QUEUE是队列的名称。例如,如果该SlurmQueues部分的条目Name设置为 “queue-name”,则 “$QUEUE” 为 “queue-name”。

  • $STATDYNst适用于静态节点或dy动态节点。

  • $COMPUTE_RESOURCE是与此Name节点对应的ComputeResources计算资源的。

  • $NODENUM是节点的编号。 $NODENUMMinCount对于静态节点,介于一 (1) 和的值之间,MinCount对于动态节点,介于一 (1) 和 MaxCount-之间。

从上面的示例配置文件中,来自queue1和计算资源的给定节点c5xlarge有一个主机名:queue1-dy-c5xlarge-1

主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster,其中$CLUSTERNAME是群集的名称。