[queue] 部分 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

[queue] 部分

定义单个队列的配置设置。[queue]部分仅在以下情况下才受scheduler设置为slurm.

格式为[queue <queue-name>].队列名称必须以小写字母开头,包含不超过 30 个字符,并且只包含小写字母、数字和连字符 (-)。

[queue q1] compute_resource_settings = i1,i2 placement_group = DYNAMIC enable_efa = true disable_hyperthreading = false compute_type = spot
注意

Support[queue]部分增加了Amazon ParallelCluster版本 2.9.0。

compute_resource_settings

(必需)识别[compute_resource]部分包含此队列的计算资源配置。部分名称必须以字母开头,包含不超过 30 个字符,并且只包含字母、数字、连字符 (-) 和下划线 (_)。

最多三 (3)[compute_resource]部分每个都支持[queue]部分.

例如,以下设置指定开始的部分[compute_resource cr1][compute_resource cr2]被使用。

compute_resource_settings = cr1, cr2

更新策略:如果更改此设置,则不允许进行更新。

compute_type

(可选)定义要为此队列启动的实例类型。该设置替代 cluster_type 设置。

有效的选项为:ondemandspot

默认值为 ondemand

有关 Spot 实例的更多信息,请参阅 使用竞价型实例

注意

使用 Spot 实例需要AWSServiceRoleForEC2Spot您的账户中存在该服务相关角色。使用在账户中创建此角色Amazon CLI中,运行以下命令:

aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

有关更多信息,请参阅 。竞价型实例请求的服务相关角色中的适用于 Linux 实例的 Amazon EC2 用户指南.

以下示例使用 SpotInstances 作为此队列中的计算节点。

compute_type = spot

更新策略:必须停止计算队列才能更改此设置才能进行更新。

disable_hyperthreading

(可选)禁用此队列中的节点上的超线程。并非所有实例类型都可以禁用超线程。有关支持禁用超线程的实例类型的列表,请参阅每种实例类型的 CPU 核心数和每 CPU 核心的线程中的适用于 Linux 实例的 Amazon EC2 用户指南. 如果disable_hyperthreading在中设置[cluster]部分已定义,则无法定义此设置。

默认值为 false

disable_hyperthreading = true

更新策略:必须停止计算队列才能更改此设置才能进行更新。

enable_efa

(可选)如果设置为true中的节点,指定为此队列中的节点启用 Elastic Fabric Adapter (EFA)。以下实例类型支持 EFAc5n.18xlargec5n.metalg4dn.metali3en.24xlargei3en.metalm5dn.24xlargem5n.24xlargem5zn.12xlargem5zn.metalr5dn.24xlarger5n.24xlargep3dn.24xlarge, 和p4d.24xlarge适用于 x86-64 实例c6gn.16xlarge对于这些操作系统上基于 ARM 的 Graviton2 实例(alinux2centos7ubuntu1804,或者ubuntu2004)。有关更多信息,请参阅 Elastic Fabric Adapter。如果enable_efa在中设置[cluster]部分已定义,则无法定义此设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅 placementplacement_group

enable_efa = true

更新策略:必须停止计算队列才能更改此设置才能进行更新。

enable_efa_gdr

(可选)从开始Amazon ParallelCluster版本 2.11.3,此设置无效。如果实例类型支持,则计算节点的 Elastic Fabric Adapter (EFA) 对 gpudDirect RDMA(远程直接内存访问)的支持始终处于启用状态。

注意

Amazon ParallelCluster版本 2.10.0 至 2.11.2:如果true中指定为此队列中的节点启用 Elastic Fabric Adapter (EFA) gpuDirect RDMA(远程直接内存访问)。将其设置为true要求enable_efa设置已设置为true.EFA gpudDirect RDMA 受以下实例类型的支持(p4d.24xlarge)在这些操作系统上(alinux2centos7ubuntu1804,或者ubuntu2004)。如果enable_efa_gdr在中设置[cluster]部分已定义,则无法定义此设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅 placementplacement_group

默认值为 false

enable_efa_gdr = true
注意

对该项的支持enable_efa_gdr增加了Amazon ParallelCluster版本 2.10.0。

更新策略:必须停止计算队列才能更改此设置才能进行更新。

placement_group

(可选)如果存在,则定义此队列的置放群组。该设置替代 placement_group 设置。

有效选项包括以下值:

  • DYNAMIC

  • 现有的 Amazon EC2 集群置放群组名称

当设置为DYNAMIC将在集群堆栈中创建并删除此队列的唯一置放群组。

有关置放群组的更多信息,请参阅置放群组中的适用于 Linux 实例的 Amazon EC2 用户指南. 如果同一置放群组用于不同的实例类型,则更有可能由于容量不足错误而导致请求失败。有关更多信息,请参阅 。实例容量不足中的适用于 Linux 实例的 Amazon EC2 用户指南.

没有默认值。

并非所有实例类型都支持集群置放群组。例如,t2.micro不支持集群置放群组。有关支持集群置放群组的实例类型列表的信息,请参阅集群置放群组规则和限制中的适用于 Linux 实例的 Amazon EC2 用户指南. 有关使用置放群组时的提示,请参阅置放群组和实例启动问题

placement_group = DYNAMIC

更新策略:必须停止计算队列才能更改此设置才能进行更新。