多队列模式 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

多队列模式

Amazon ParallelCluster版本 2.9.0 引入了多队列模式。支持多队列模式scheduler设置为slurmqueue_settings设置。此模式允许不同的实例类型在计算节点中共存。包含不同实例类型的计算资源可以根据需要向上或缩小。在队列模式下,最多支持五 (5) 个队列,并且每个[queue]部分最多可参考三 (3)[compute_resource]部分。每个[queue]部分是一个分区Slurm Workload Manager。有关更多信息,请参阅 Slurm多队列模式指南多队列模式教程

EATH[compute_resource]部分必须具有不同的实例类型,并且[compute_resource]被进一步划分为静态节点和动态节点。每个静态节点[compute_resource]的编号从 1 到min_count。每个动态节点[compute_resource]的编号从 1 (1) 到 (max_count-min_count)。例如,如果min_count为 2,max_count是 10,那么该[compute_resource]的编号从一 (1) 到八 (8) 之间。在任何时候,动态节点的最大数量可以介于零 (0) 和[compute_resource]

在计算队列中启动的实例将被动态分配。为了帮助管理这一点,会为每个节点生成主机名。主机名的格式如下所示:

$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM

  • $QUEUE是队列的名称。例如,如果该部分开始[queue queue-name]然后”$QUEUE” 是”队列名称”。

  • $STATDYNst对于静态节点或dy用于动态节点。

  • $INSTANCE_TYPE是实例类型的实例类型[compute_resource],来自instance_type设置。

  • $NODENUM是节点的编号。$NODENUM介于 1 (1) 和min_count对于静态节点,并介于一 (1) 和 (max_count-min_count),用于动态节点。

主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster,其中,$CLUSTERNAME[cluster]部分用于集群。

要将配置转换为队列模式,请使用pcluster-config convert命令。它将更新的配置写入一个[queue]部分命名[queue compute]。该队列包含单个[compute_resource]部分被命名为[compute_resource default]。这些区域有:[queue compute][compute_resource default]的设置已从指定的[cluster]部分