本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
多队列模式
Amazon ParallelCluster版本 2.9.0 引入了多队列模式。在以下情况下支持多队列模式scheduler设置为slurm
和queue_settings设置已定义。此模式允许不同的实例类型在计算节点中共存。包含不同实例类型的计算资源可以根据需要扩展或缩小。在队列模式下,最多支持五 (5) 个队列,并且每个队列都受支持。[queue]部分最多可以参考三 (3)[compute_resource]部分. 每个都[queue]部分是一个分区Slurm Workload Manager. 有关更多信息,请参阅 Slurm多队列模式指南 和 多队列模式教程。
ELECT[compute_resource]部分队列中必须具有不同的实例类型,并且每种实例类型[compute_resource]
进一步分为静态节点和动态节点。每个节点的静态节点[compute_resource]
编号从 1 到的值min_count. 每个节点的动态节点[compute_resource]
编号从一 (1) 到 (max_count-min_count
)。例如,如果min_count
是 2max_count
是 10,那个动态节点[compute_resource]
编号从一 (1) 到八 (8)。在任何时候,可以介于零 (0) 和最大动态节点数之间[compute_resource]
.
启动到计算队列的实例是动态分配的。为了帮助管理此,将为每个节点生成主机名。主机名的格式如下:
$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM
-
$QUEUE
是队列的名称。例如,如果该部分开始[queue
那么”queue-name
]$QUEUE
” 是”队列名称
”。 -
$STATDYN
是st
对于静态节点或dy
对于动态节点。 -
$INSTANCE_TYPE
是的实例类型[compute_resource]
,来自的instance_type设置。 -
$NODENUM
是节点的编号。$NODENUM
介于一 (1) 和的值之间min_count对于静态节点以及介于一 (1) 和 (max_count-min_count
) 用于动态节点。
主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster
,其中$CLUSTERNAME
是的名字[cluster]部分用于集群。
要将配置转换为队列模式,请使用pcluster-config convert命令。它用单个编写一个更新的配置[queue]部分被命名[queue compute]
. 该队列包含一个[compute_resource]部分那被命名[compute_resource default]
. 这些区域有:[queue compute]
和[compute_resource default]
已从指定的迁移设置[cluster]部分.