多队列模式 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

多队列模式

Amazon ParallelCluster版本 2.9.0 引入了多队列模式。在以下情况下支持多队列模式scheduler将设置为slurm还有queue_settings设置已定义。此模式允许不同的实例类型在计算节点中共存。包含不同实例类型的计算资源可以根据需要向上或向下扩展。在队列模式下,最多支持五(5)个队列,每个队列中的队列最多[queue]部分最多可以指三 (3)[compute_resource]部分. 其中的每一个[queue]部分是一个分区Slurm Workload Manager. 有关更多信息,请参阅 Slurm多队列模式指南多队列模式教程

每个[compute_resource]部分队列中必须有不同的实例类型,而且每种实例类型都必须不同[compute_resource]进一步分为静态节点和动态节点。每个节点的静态节点[compute_resource]从 1 到值之间编号min_count. 每个节点的动态节点[compute_resource]编号从一 (1) 到 (max_count-min_count)。例如,如果min_count为 2 和max_count是 10,那个的动态节点[compute_resource]编号从一 (1) 到八 (8)。在任何时候,动态节点的数量都可能介于零 (0) 和最大值之间[compute_resource].

在计算队列中启动的实例是动态分配的。为了帮助管理此问题,为每个节点生成主机名。主机名的格式如下:

$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM

  • $QUEUE是队列的名称。例如,如果该部分开始[queue queue-name]那么”$QUEUE” 是”队列名称”。

  • $STATDYNst用于静态节点或dy用于动态节点。

  • $INSTANCE_TYPE是的实例类型[compute_resource]、来自的instance_type设置。

  • $NODENUM是节点的编号。$NODENUM介于一 (1) 和的值之间min_count用于静态节点以及介于一 (1) 和 (max_count-min_count) 用于动态节点。

主机名和完全限定域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster,其中$CLUSTERNAME是的名字[cluster]部分用于集群。

要将您的配置转换为队列模式,请使用pcluster-config convert命令。它使用单个写入更新的配置[queue]部分被命名[queue compute]. 该队列包含一个[compute_resource]部分这个名字叫做[compute_resource default]. 这些区域有:[queue compute][compute_resource default]已从指定迁移设置[cluster]部分.