[queue] 部分 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

[queue] 部分

定义单个队列的配置设置。只有当 scheduler 设置为 slurm 时,才支持 [queue] 部分。

格式为 [queue <queue-name>]queue-name 必须以小写字母开头,不能超过 30 个字符,并且只能包含小写字母、数字和连字符 (-)。

[queue q1] compute_resource_settings = i1,i2 placement_group = DYNAMIC enable_efa = true disable_hyperthreading = false compute_type = spot
注意

在 Amazon ParallelCluster 版本 2.9.0 中添加了对 [queue] 部分的支持。

compute_resource_settings

(必需)标识包含该队列的计算资源配置的 [compute_resource] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

每个 [compute_resource] 部分最多支持三 (3) 个 [queue] 部分

例如,以下设置指定使用以 [compute_resource cr1][compute_resource cr2] 开始的部分。

compute_resource_settings = cr1, cr2

更新策略:如果更改此设置,则不允许更新。

compute_type

(可选)定义要为此队列启动的实例的类型。该设置替代 cluster_type 设置。

有效的选项为:ondemandspot

默认值为 ondemand

有关竞价型实例的更多信息,请参阅使用竞价型实例

注意

使用竞价型实例要求您的账户中存在 AWSServiceRoleForEC2Spot 服务相关角色。要使用 Amazon CLI 在账户中创建此角色,请运行以下命令:

aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

有关更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的竞价型实例请求的服务相关角色

以下示例对此队列中的计算节点使用竞价型实例。

compute_type = spot

更新策略:必须停止计算实例集才能更改此设置以进行更新。

disable_hyperthreading

(可选)对此队列中的节点禁用超线程。并非所有实例类型都可以禁用超线程。有关支持禁用超线程的实例类型列表,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的每种实例类型的 CPU 内核以及每个 CPU 内核的线程。如果定义了 [cluster] 部分中的 disable_hyperthreading 设置,则不能定义此设置。

默认值为 false

disable_hyperthreading = true

更新策略:必须停止计算实例集才能更改此设置以进行更新。

enable_efa

(可选)如果设置为 true,则指定为此队列中的节点启用 Elastic Fabric Adapter (EFA)。要查看支持 EFA 的 EC2 实例的列表,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的支持的实例类型。如果定义了 [cluster] 部分中的 enable_efa 设置,则不能定义此设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅placementplacement_group

enable_efa = true

更新策略:必须停止计算实例集才能更改此设置以进行更新。

enable_efa_gdr

(可选)从 Amazon ParallelCluster 版本 2.11.3 开始,此设置无效。如果实例类型支持 Elastic Fabric Adapter (EFA),则始终为计算节点启用对 GPUDirect RDMA(远程直接内存访问)的 Elastic Fabric Adapter (EFA) 支持。

注意

Amazon ParallelCluster 版本 2.10.0 到 2.11.2:如果为 true,则指定为此队列中的节点启用 Elastic Fabric Adapter (EFA) GPUDirect RDMA(远程直接内存访问)。将此参数设置为 true 需要先将 enable_efa 设置设为 true。这些操作系统(alinux2centos7ubuntu1804ubuntu2004)上的以下实例类型 (p4d.24xlarge) 支持 EFA GPUDirect RDMA。如果定义了 [cluster] 部分中的 enable_efa_gdr 设置,则不能定义此设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅placementplacement_group

默认值为 false

enable_efa_gdr = true
注意

在 Amazon ParallelCluster 版本 2.10.0 中添加了对 enable_efa_gdr 的支持。

更新策略:必须停止计算实例集才能更改此设置以进行更新。

placement_group

(可选)如果存在,则定义此队列的置放群组。该设置替代 placement_group 设置。

有效选项为以下值:

  • DYNAMIC

  • 现有的 Amazon EC2 集群置放群组名称

当设置为 DYNAMIC 时,将此队列的唯一置放群组作为集群堆栈的一部分进行创建和删除。

有关置放群组的更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的置放群组。如果将同一个置放群组用于不同的实例类型,则请求更有可能因容量不足错误而失败。有关更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的实例容量不足

没有默认值。

并非所有实例类型都支持集群置放群组。例如,t2.micro 不支持集群置放群组。有关支持集群置放群组的实例类型列表的信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的集群置放群组规则和限制。有关使用置放群组时的提示,请参阅置放群组和实例启动问题

placement_group = DYNAMIC

更新策略:必须停止计算实例集才能更改此设置以进行更新。