[cluster] 部分 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

[cluster] 部分

定义可用于创建集群的群集模板。一个配置文件可以包含多个[cluster]部分。

相同的集群模板可用于创建多个集群。

格式为 [cluster cluster-template-name]。默认情况下,使用该[global]部分中的cluster_template设置命名的部分,但可以在pcluster命令行上重写。[cluster]

cluster-template-name必须以字母开头,包含不超过 30 个字符,并且只能包含字母、数字、下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_)。

[cluster default]

additional_cfn_template

(可选)定义要与集群一起启动的附加Amazon CloudFormation模板。此附加模板用于创建不在集群之外但属于集群生命周期一部分的资源。

该值必须是指向公共模板的 HTTP URL,并提供所有参数。

没有默认值。

additional_cfn_template = https://<bucket-name>.s3.amazonaws.com/my-cfn-template.yaml

更新策略:如果更改此设置,则不允许更新。

additional_iam_policies

(可选)为 Amazon EC2 指定适用于 Amazon EC2 的 Amazon EC2 资源名称 (ARN) 的列表。除了以逗号Amazon ParallelCluster分隔的所需权限外,此列表还附加到集群中使用的根角色。IAM 策略名称与其 ARN 不同。名称不能用作参数additional_iam_policies

如果您的意图是在集群节点的默认设置中添加额外的策略,我们建议您使用该additional_iam_policies设置传递额外的自定义 IAM 策略,而不是使用这些ec2_iam_role设置来添加特定的 EC2 策略。这是因为additional_iam_policies已添加到Amazon ParallelCluster所需的默认权限中。现有ec2_iam_role必须包含所需的所有权限。但是,由于随着功能的添加,所需的权限通常会因版本而变化,因此现有的权限ec2_iam_role可能会过时。

没有默认值。

additional_iam_policies = arn:aws:iam::123456789012:policy/CustomEC2Policy
注意

Amazon ParallelCluster版本 2.5.0 additional_iam_policies中添加了对的Support。

更新策略:可以在更新期间更改此设置。

base_os

(必需)指定在集群中使用的操作系统类型。

可用的选项为:

  • alinux2

  • centos7

  • ubuntu1804

  • ubuntu2004

注意

对于基于Amazon Graviton 的实例alinux2ubuntu1804ubuntu2004仅支持、或。

注意

114114Amazon ParallelCluster 版本114 中centos8已移除对的Support 在Amazon ParallelCluster版本 2.11.0 中增加了对的Salinux uubuntu1604 pport,并删除了对的支持。ubuntu2004在Amazon ParallelCluster版本 2.10.0 中添加了对的Scentos6 upport 并删除了对的支持。centos8Amazon ParallelCluster版本 2.6.0alinux2 中添加了对的Support。ubuntu1804在Amazon ParallelCluster版本 2.5.0 中添加了对的Suppubuntu1404 ort,并删除了对的支持。

除下表中Amazon Web Services 区域提到的具体内容外,不支持centos7。所有其他Amazon商业区域均支持以下以下以下以下所有操作系统。

分区 (Amazon Web Services 区域) alinux2 centos7 ubuntu1804ubuntu2004
商用(Amazon Web Services 区域未特别提及所有内容) True True True
Amazon GovCloud (美国东部)(us-gov-east-1) True False True
Amazon GovCloud (美国西部)(us-gov-west-1 True False True
中国(北京) (cn-north-1) True False True
中国(宁夏) (cn-northwest-1) True False True
注意

该base_os参数还确定用于登录集群的用户名。

  • centos7: centos

  • ubuntu1804ubuntu2004ubuntu

  • alinux2: ec2-user

注意

在 2.7.0Amazon ParallelCluster 版本之前,该base_os参数是可选的,默认值为alinux。从Amazon ParallelCluster版本 2.7.0 开始,该base_os参数是必需的。

注意

如果 scheduler 参数为 awsbatch,则仅支持 alinux2

base_os = alinux2

更新策略:如果更改此设置,则不允许更新。

cluster_resource_bucket

(可选)指定用于托管创建集群时生成的资源的 Amazon S3 存储桶的名称。存储桶必须已启用版本控制。有关更多信息,请参阅 Amazon Simple Storage Service 用户指南中的使用版本控制的更多信息。此存储桶可用于多个集群。存储桶必须与集群同在一个同一区域中。

如果未指定此参数,则创建集群时会创建一个新的存储桶。新存储桶的名称为parallelcluster-random_string。在这个名字中,r andom_string 是一个由字母数字字符组成的随机字符串。所有集群资源都存储在此存储桶中,路径为bucket_name/resource_directoryresource_directory格式为stack_name-random_string,其中 stack_ name 是使用的其中一个Amazon CloudFormation堆栈的名称Amazon ParallelCluster。bucket_nameResourcesS3Bucket值可以在parallelcluster-clustername堆栈输出中的值中找到。resource_directory 的值可以在同一堆栈的ArtifactS3RootDirectory输出值中找到。

默认值为 parallelcluster-random_string

cluster_resource_bucket = my-s3-bucket
注意

1010.10.10.10.10.10.10.10.10.10.cluster_resource_bucketAmazon ParallelCluster

更新策略:如果更改此设置,则不允许更新。无法强制更新此设置。

cluster_type

(可选)定义要启动的集群的类型。如果定义了该queue_settings设置,则必须将此设置替换为[queue]各部分中的compute_type设置。

有效的选项为:ondemandspot

默认值为 ondemand

有关 Spot 实例的更多信息,请参阅 使用竞价型实例

注意

使用 Spot 实例需在您的账户中存在该AWSServiceRoleForEC2Spot服务相关角色。要使用在账户中创建此角色,请运行以下以下以下以下以下以下以下以下以下以下以下以下以下以下以下以下以下以下命令:Amazon CLI

aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

有关更多信息,请参阅适用Linux 实例的 Amazon EC2 用户指南中的竞价型实例请求的服务相关角色

cluster_type = ondemand

更新策略:必须停止计算队列才能更改此设置以进行更新。

compute_instance_type

(可选)定义用于集群计算节点的 Amazon EC2 实例类型(可选)。实例类型的架构必须与用于master_instance_type设置的架构相同。如果定义了该queue_settings设置,则必须将此设置替换为[compute_resource]各部分中的instance_type设置。

如果您使用的是awsbatch调度程序,请参阅在Amazon Batch UI 中创建计算环境以获取支持的实例类型列表。

默认值为 t2.micro;当计划程序为 awsbatch 时,为 optimal

compute_instance_type = t2.micro
注意

Amazon ParallelCluster版本 2.8.0 中增加了对Amazon基于 Gravity 的C6g实例(包括A1和实例)的Support。

更新策略:必须停止计算队列才能更改此设置以进行更新。

compute_root_volume_size

(可选)指定 ComputeFleet 根卷大小(GiB)为单位)。AMI 必须支持 growroot

默认值为 35

注意

对于 2.5.0 和 2.10.4 之间的Amazon ParallelCluster版本,默认值为 25。2.5.0Amazon ParallelCluster 2.5.0 之前的默认值为 20 0 0 0 0 0 0 0 0 0

compute_root_volume_size = 35

更新策略:必须停止计算队列才能更改此设置以进行更新。

custom_ami

(可选)指定用于头节点和计算节点的自定义 AMI 的 ID,而不是默认发布的 AMI。有关更多信息,请参阅 修改 AMI构建自定义 Amazon ParallelCluster AMI

没有默认值。

custom_ami = ami-00d4efc81188687a0

如果自定义 AMI 需要额外的权限才能启动,则必须将这些权限添加到用户和头节点策略中。

例如,如果自定义 AMI 具有与之关联的加密快照,则用户和头节点策略中都需要以下附加策略:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:ReEncrypt*", "kms:CreateGrant", "kms:Decrypt" ], "Resource": [ "arn:aws:kms:<AWS_REGION>:<AWS_ACCOUNT_ID>:key/<AWS_KMS_KEY_ID>" ] } ] }

更新策略:如果更改此设置,则不允许更新。

cw_log_settings

(可选)标识具有 CloudWatch 日志配置的[cw_log]部分。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅亚马逊 CloudWatch 控制面板、和[cw_log]部分与亚马逊 CloudWatch 日志集成

例如,以下设置指定将启动部分[cw_log custom-cw]用于 CloudWatch 日志配置。

cw_log_settings = custom-cw
注意

Amazon ParallelCluster版本 2.6.0cw_log_settings 中添加了对的Support。

更新策略:如果更改此设置,则不允许更新。

dashboard_settings

(可选)标识具有 CloudWatch仪表板配置的[dashboard]部分。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅以下以下更多信息,[dashboard]请参阅以下以下更多信息。

例如,以下设置指定开始部分[dashboard custom-dashboard用于 CloudWatch 仪表板配置。

dashboard_settings = custom-dashboard
注意

1010.10.10.10.10.10.10.10.10.10.dashboard_settingsAmazon ParallelCluster

更新策略:可以在更新期间更改此设置。

dcv_settings

(可选)标识采用 NICE DCV 配置的[dcv]部分。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅以下以下更多信息,[dcv]请参阅以下以下更多信息。

例如,以下设置指定启动部分用[dcv custom-dcv]于 NICE DCV 配置。

dcv_settings = custom-dcv
注意

在基于Amazon Graviton 的实例上,仅支持 NICE DCValinux2

注意

Amazon ParallelCluster版本 2.5.0dcv_settings 中添加了对的Support。

更新策略:如果更改此设置,则不允许更新。

desired_vcpus

(可选)指定计算环境中所需的 vCPUs 数。仅在计划程序为 awsbatch 时使用。

默认值为 4

desired_vcpus = 4

更新策略:更新期间不分析此设置。

disable_cluster_dns

(可选)指定是否不应为群集创建 DNS 条目。默认Amazon ParallelCluster创建一个 Route 53 托管区域。如果设置disable_cluster_dnstrue,则不创建托管区域。

默认值为 false

disable_cluster_dns = true
警告

群集需要名称解析系统才能正常运行。如果设置disable_cluster_dnstrue,则还必须提供额外的名称解析系统。

重要

disable_cluster_dnstrue只有在指定了queue_settings设置时才支持 =。

注意

Amazon ParallelCluster版本 2.9.1disable_cluster_dns 中添加了对的Support。

更新策略:如果更改此设置,则不允许更新。

disable_hyperthreading

(可选)在头节点和计算节点上禁用超线程。并非所有实例类型都可以禁用超线程。有关支持禁用超线程的实例类型的列表,请参阅《适用于 Linux 实例的 Amazon EC2 用户指南》中每种实例类型的 CPU 核心和每个 CPU 核心的线程。如果定义了queue_settings设置,则可以定义此disable_hyperthreading设置,也可以定义[queue]部分中的设置。

默认值为 false

disable_hyperthreading = true
注意

disable_hyperthreading仅在以下情况下才会影响头节点scheduler = awsbatch

注意

Amazon ParallelCluster版本 2.5.0disable_hyperthreading 中添加了对的Support。

更新策略:如果更改此设置,则不允许更新。

ebs_settings

(可选)标识安装在头节点上的 Amazon EBS 卷[ebs]部分。使用多个 Amazon EBS 卷时,请在列表中输入这些参数,每个参数用逗号分隔。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

最多支持最多五(5)个额外的 Amazon EBS 卷数。

有关更多信息,请参阅以下以下更多信息,[ebs]请参阅以下以下更多信息。

例如,以下设置指定开头[ebs custom1][ebs custom2]用于 Amazon EBS 卷的部分。

ebs_settings = custom1, custom2

更新策略:如果更改此设置,则不允许更新。

ec2_iam_role

(可选)定义附加到集群中所有实例的 Amazon EC2 现有 IAM 角色的名称。IAM 角色名称及其 Amazon 资源名称 (ARN) 是不同的。ARN 不能用作参数ec2_iam_role

如果指定了此选项,则忽略 additional_iam_policies 设置。如果您的意图是在集群节点的默认设置中添加额外的策略,我们建议您使用该additional_iam_policies设置传递额外的自定义 IAM 策略,而不是使用这些ec2_iam_role设置。

如果未指定此选项,则使用 Amazon EC2 的默认Amazon ParallelCluster IAM 角色。有关更多信息,请参阅 Amazon Identity and Access Management中的角色Amazon ParallelCluster

没有默认值。

ec2_iam_role = ParallelClusterInstanceRole

更新策略:如果更改此设置,则不允许更新。

efs_settings

(可选)指定与 Amazon EFS 文件系统相关的设置。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅以下以下更多信息,[efs]请参阅以下以下更多信息。

例如,以下设置指定启动部分用[efs customfs]于 Amazon EFS 文件系统配置。

efs_settings = customfs

更新策略:如果更改此设置,则不允许更新。

enable_efa

(可选)如果存在,则指定为计算节点启用Elastic Fabric Adapter (EFA)。要查看支持 EFA 的 EC2 实例列表,请参阅《适用于 Linux 实例的 Amazon EC2 用户指南》中的支持的实例类型。有关更多信息,请参阅 Elastic Fabric Adapter。如果定义了queue_settings设置,则可以定义此enable_efa设置,也可以定义该[queue]部分中的设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅 placementplacement_group

enable_efa = compute
注意

Amazon ParallelCluster版本 2.10.1 中添加了对基于 ARM 的 Graviton2 实例上的 EFA 的Support。

更新策略:如果更改此设置,则不允许更新。

enable_efa_gdr

(可选)从Amazon ParallelCluster版本 2.11.3 开始,此设置不起作用。如果实例类型和操作系统都支持 Elastic Fabric Adapter (EFA),则对 GpuDirect RDMA(远程直接内存访问)的支持将始终处于启用状态。

注意

Amazon ParallelCluster版本 2.10.0 至 2.11.2:如果compute,则指定为计算节点启用 Elastic Fabric Adapter (EFA) 对 GpuDirect RDMA(远程直接内存访问)的支持。如果将此设置设置为,则compute需要将该enable_efa设置设置设置为compute。特定操作系统(是alinux2centos7、或p4d.24xlargeubuntu2004)上的特定实例类型 () 支持 EFA 对 GpuDirect RDMA 的支持。base_osubuntu1804如果定义了queue_settings设置,则可以定义此enable_efa_gdr设置,也可以定义[queue]部分中的设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅 placementplacement_group

enable_efa_gdr = compute
注意

1010.10.10.10.10.10.10.10.10.10.enable_efa_gdrAmazon ParallelCluster

更新策略:必须停止计算队列才能更改此设置以进行更新。

enable_intel_hpc_platform

(可选)如果有,则表示接受英特尔 Parallel Studio 的最终用户许可协议。这会导致英特尔 Parallel Studio 安装在头节点上并与计算节点共享。这会使头节点启动所花费的时间增加了几分钟。仅 CentOS 7 (base_os = centos7) 上支持 enable_intel_hpc_platform 设置。

默认值为 false

enable_intel_hpc_platform = true
注意

该enable_intel_hpc_platform参数与Amazon基于 Gravity 的实例不兼容。

注意

Amazon ParallelCluster版本 2.5.0enable_intel_hpc_platform 中添加了对的Support。

更新策略:如果更改此设置,则不允许更新。

encrypted_ephemeral

(可选)使用 LUKS(Linux 统一密钥设置)使用不可恢复的内存密钥对临时实例存储卷进行加密。

有关更多信息,请参阅 https://gitlab.com/cryptsetup/cryptsetup/blob/master/README.md

默认值为 false

encrypted_ephemeral = true

更新策略:如果更改此设置,则不允许更新。

ephemeral_dir

(可选)定义使用实例存储卷时的挂载路径。

默认值为 /scratch

ephemeral_dir = /scratch

更新策略:如果更改此设置,则不允许更新。

extra_json

(可选)定义合并到的额外 JSONChefdna.json。有关更多信息,请参阅 构建自定义 Amazon ParallelCluster AMI

默认值为 {}

extra_json = {}
注意

从Amazon ParallelCluster版本 2.6.1 开始,启动节点时默认跳过大多数安装配方,以缩短启动时间。要以牺牲启动时间为代价运行所有安装配方"skip_install_recipes" : "no"以获得更好的向后兼容性,请在extra_json设置中添加cluster密钥。例如:

extra_json = { "cluster" : { "skip_install_recipes" : "no" } }

更新策略:必须停止计算队列才能更改此设置以进行更新。

fsx_settings

(可选)指定定义 FSx for Lustre 配置的部分。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅以下以下更多信息,[fsx]请参阅以下以下更多信息。

例如,以下设置指定开始部分用[fsx fs]于 FSx for Lustre 配置。

fsx_settings = fs

更新策略:如果更改此设置,则不允许更新。

iam_lambda_role

(可选)定义现有Amazon Lambda执行角色的名称。此角色附加到集群中所有 Lambda 函数的所有 Lambda 函数。有关更多信息,请参阅《Amazon Lambda 开发人员指南》中的 Amazon Lambda 执行角色

注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

IAM 角色名称及其 Amazon 资源名称 (ARN) 是不同的。ARN 不能用作参数iam_lambda_role。如果定义了和,并且schedulersgeslurmtorque、或,则不会创建任何角色。ec2_iam_roleiam_lambda_role如果schedulerawsbatch,则会在此期间创建角色pcluster start。有关策略的示例,请参阅ParallelClusterLambdaPolicy使用SGESlurm、或TorqueParallelClusterLambdaPolicy,使用 awsbatch

没有默认值。

iam_lambda_role = ParallelClusterLambdaRole
注意

Amazon ParallelCluster版本 2.10.1 中添加了对的Support。iam_lambda_role

更新策略:可以在更新期间更改此设置。

initial_queue_size

(可选)设置作为集群中计算节点启动的 Amazon EC2 实例的初始数量。如果定义了该queue_settings设置,则必须删除此设置并替换为[compute_resource]部分中的initial_count设置。

注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

此设置仅适用于传统计划程序(SGE、Slurm 和 Torque)。如果maintain_initial_size设置为true,则该initial_queue_size设置必须至少为一 (1)。

如果计划程序是 awsbatch,请改用 min_vcpus

默认值为 2

initial_queue_size = 2

更新策略:可以在更新期间更改此设置。

key_name

(可选)命名一个用于支持实例的 SSH 访问的现有 Amazon EC2 key pair(可选)命名。

key_name = mykey
注意

2.11.11.11.1 之前Amazon ParallelCluster的设置key_name是必需的设置。

更新策略:如果更改此设置,则不允许更新。

maintain_initial_size

注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

(可选)保持传统调度程序的 Auto Scaling 组的初始大小(SGESlurm、和Torque)。

如果计划程序是 awsbatch,请改用 desired_vcpus

此设置是一个布尔标记。如果设置为true,则 Auto Scaling 组的成员数永远不会少于的值initial_queue_size,并且的值initial_queue_size必须为一 (1) 或更大。集群仍可以扩展到 max_queue_size 的值。如果是cluster_type = spot这样,Auto Scaling 组可能会中断实例,并且大小可能会降低initial_queue_size

如果设置为false,Auto Scaling 组可以向下扩展到零 (0) 个成员,以防止资源在不需要时处于空闲状态。

如果定义了该queue_settings设置,则必须删除此设置,并将其替换为[compute_resource]部分中的initial_countmin_count设置。

默认值为 false

maintain_initial_size = false

更新策略:可以在更新期间更改此设置。

master_instance_type

(可选)定义用于头节点的 Amazon EC2 实例类型。实例类型的架构必须与用于compute_instance_type设置的架构相同。

其中Amazon Web Services 区域有免费套餐,默认为免费套餐实例类型(t2.microt3.micro)。其中Amazon Web Services 区域没有免费套餐,默认为t3.micro。有关免费套餐的更多信息,请参阅Amazon免费套餐的更多信息,请参阅免费套餐的更多信息,请参阅Amazon免费套餐的更多信息

master_instance_type = t2.micro
注意

在Amazon ParallelCluster版本 2.10.1 之前,全部默认为Amazon Web Services 区域。t2.micro在 2.10.0Amazon ParallelCluster 版本中,头节点p4d.24xlarge不支持。Amazon ParallelCluster版本 2.8.0 中添加了对Amazon基于 Gravity 的实例(例如A1C6g)的Support。

更新策略:如果更改此设置,则不允许更新。

master_root_volume_size

(可选)以千兆字节 (GiB) 为单位指定头节点根卷大小。AMI 必须支持 growroot

默认值为 35

注意

对于 2.5.0 和 2.10.4 之间的Amazon ParallelCluster版本,默认值为 25。2.5.0Amazon ParallelCluster 2.5.0 之前的默认值为 20 0 0 0 0 0 0 0 0 0

master_root_volume_size = 35

更新策略:如果更改此设置,则不允许更新。

max_queue_size

(可选)设置可在集群中启动的最大Amazon EC2 实例数(可选)设置可在集群中启动的最大Amazon EC2 实例数( 如果定义了该queue_settings设置,则必须删除此设置并替换为[compute_resource]部分中的max_count设置。

注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

此设置仅适用于传统计划程序(SGE、Slurm 和 Torque)。

如果计划程序是 awsbatch,请改用 max_vcpus

默认值为 10

max_queue_size = 10

更新策略:可以在更新期间更改此设置,但如果值降低,则应停止计算队列。否则,现有节点可能会被终止。

max_vcpus

(可选)指定计算环境中的最大 vCPUs 数量。仅在计划程序为 awsbatch 时使用。

默认值为 20

max_vcpus = 20

更新政策:此设置在更新期间无法降低。

min_vcpus

(可选)保持awsbatch调度器的 Auto Scaling 组的初始大小。

注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

如果计划程序是 SGE、Slurm 或 Torque,请改用 maintain_initial_size

计算环境中的成员数绝不会少于 min_vcpus 的值。

默认值为 0

min_vcpus = 0

更新策略:可以在更新期间更改此设置。

placement

(可选)定义群集置放群组逻辑,使整个群集或仅允许计算实例使用集群置放群组。

如果定义了该queue_settings设置,则应删除此设置并替换为每个[queue]部分placement_group设置。如果将相同的置放群组用于不同的实例类型,则更有可能由于容量不足错误而导致请求失败。有关更多信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的实例容量不足。只有事先创建了一个置放群组并在每个队列的placement_group设置中进行了配置,多个队列才能共享该置放群组。如果每个[queue]部分都定义了placement_group设置,则头节点不能位于队列的置放组中。

有效选项是 clustercompute

调度器处于调度器状态时不使用此参数awsbatch

默认值为 compute

placement = compute

更新策略:如果更改此设置,则不允许更新。

placement_group

(可选)定义集群置放群组。如果定义了该queue_settings设置,则应删除此设置并替换为[queue]各部分中的placement_group设置。

有效选项为以下值:

  • DYNAMIC

  • 现有的 Amazon EC2 集群置放群组名称

当设置为 DYNAMIC 时,将唯一置放群组作为集群堆栈的一部分进行创建和删除。

调度器处于调度器状态时不使用此参数awsbatch

有关置放群组的更多信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的置放群组。如果将相同的置放群组用于不同的实例类型,则更有可能由于容量不足错误而导致请求失败。有关更多信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的实例容量不足

没有默认值。

并非所有实例类型都支持集群置放群组。例如,的默认实例类型t3.micro不支持集群置放群组。有关支持集群置放群组的实例类型列表的信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的集群置放群组规则和限制。有关使用置放群组时的提示,请参阅置放群组和实例启动问题

placement_group = DYNAMIC

更新策略:如果更改此设置,则不允许更新。

post_install

(可选)指定在所有节点引导操作完成后运行的安装后脚本的 URL。有关更多信息,请参阅 自定义引导操作

awsbatch用作调度程序时,安装后脚本仅在头节点上运行。

参数格式可以是 http://hostname/path/to/script.shs3://bucketname/path/to/script.sh

没有默认值。

post_install = s3://<bucket-name>/my-post-install-script.sh

更新策略:必须停止计算队列才能更改此设置以进行更新。

post_install_args

(可选)指定要传递给安装后脚本的带引号的参数列表。

没有默认值。

post_install_args = "argument-1 argument-2"

更新策略:必须停止计算队列才能更改此设置以进行更新。

pre_install

(可选)指定在启动任何节点部署引导操作之前运行的预安装脚本的 URL。有关更多信息,请参阅 自定义引导操作

awsbatch用作调度程序时,预安装脚本仅在头节点上运行。

参数格式可以是 http://hostname/path/to/script.shs3://bucketname/path/to/script.sh

没有默认值。

pre_install = s3://<bucket-name>/my-pre-install-script.sh

更新策略:必须停止计算队列才能更改此设置以进行更新。

pre_install_args

(可选)指定要传递给预安装脚本的带引号的参数列表。

没有默认值。

pre_install_args = "argument-3 argument-4"

更新策略:必须停止计算队列才能更改此设置以进行更新。

proxy_server

(可选)通常定义 HTTP 或 HTTPS 代理服务器http://x.x.x.x:8080

没有默认值。

proxy_server = http://10.11.12.13:8080

更新策略:如果更改此设置,则不允许更新。

queue_settings

(可选)指定群集使用队列而不是同构计算队列,以及使用哪些[queue]部分。列出的第一[queue]部分是默认的调度器队列。queue分名必须以小写字母开头,并且只能包含小写字母 () 和小写字母 ()。

最多支持最多五(5)个[queue]分数。

有关更多信息,请参阅以下以下更多信息,[queue]请参阅以下以下更多信息。

例如,以下设置指定了开头[queue q1][queue q2]使用的部分。

queue_settings = q1, q2
注意

Amazon ParallelCluster版本 2.9.0 中添加了对的Support。queue_settings

更新策略:必须停止计算队列才能更改此设置以进行更新。

raid_settings

(可选)标识采用 Amazon EBS 卷 RAID 配置的[raid]部分。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅以下以下更多信息,[raid]请参阅以下以下更多信息。

例如,以下设置指定[raid rs]将启动部分用于 Auto Scaling 配置。

raid_settings = rs

更新策略:如果更改此设置,则不允许更新。

s3_read_resource

(可选)指定向Amazon ParallelCluster节点授予只读访问权限的 Amazon S3 资源。

例如,arn:aws:s3:::my_corporate_bucket*提供对 my_corporate_bucket 存储桶和存储桶中对象的只读访问权限。

有关格式的详细信息,请参阅使用 Amazon S3

没有默认值。

s3_read_resource = arn:aws:s3:::my_corporate_bucket*

更新策略:可以在更新期间更改此设置。

s3_read_write_resource

(可选)指定向Amazon ParallelCluster节点授予读/写访问权限的 Amazon S3 资源。

例如,arn:aws:s3:::my_corporate_bucket/Development/*提供对 my_corporate_bucket 存储桶Development文件夹中所有对象的读/写访问权限。

有关格式的详细信息,请参阅使用 Amazon S3

没有默认值。

s3_read_write_resource = arn:aws:s3:::my_corporate_bucket/*

更新策略:可以在更新期间更改此设置。

scaling_settings

标识具有 Auto Scaling 配置的[scaling]部分。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅以下以下更多信息,[scaling]请参阅以下以下更多信息。

例如,以下设置指定将开始的部分用[scaling custom]于 Auto Scaling 配置。

scaling_settings = custom

更新策略:如果更改此设置,则不允许更新。

scheduler

(必需)定义集群计划程序。

有效选项为以下值:

awsbatch

Amazon Batch

有关awsbatch调度程序的更多信息,请参阅网络设置Amazon Batch (awsbatch)

sge
注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

Son of Grid Engine (SGE)

slurm

Slurm Workload Manager (Slurm)

torque
注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

Torque Resource Manager (Torque)

注意

在 2.7.0Amazon ParallelCluster 版本之前,该scheduler参数是可选的,默认值为sge。从Amazon ParallelCluster版本 2.7.0 开始,该scheduler参数是必需的。

scheduler = slurm

更新策略:如果更改此设置,则不允许更新。

shared_dir

(可选)定义共享 Amazon EBS 卷的安装路径。

不要对多个 Amazon EBS 卷使用此选项。相反,请在每个[ebs]部分下提供shared_dir值。

有关使用多个 Amazon EBS 卷的详细信息,请参阅[ebs]部分

默认值为 /shared

以下示例显示了安装在的共享 Amazon EBS 卷/myshared

shared_dir = myshared

更新策略:如果更改此设置,则不允许更新。

spot_bid_percentage

(可选)设置按需百分比,用于计算调度器的最高现货价格。 ComputeFleetawsbatch

如果未指定,则选择当前 Spot 市场价格,最高为按需价格。

spot_bid_percentage = 85

更新策略:可以在更新期间更改此设置。

spot_price

注意

从版本 2.11.5 开始,Amazon ParallelCluster不支持使用SGE或Torque调度器。

(可选)设置传统调度器 ComputeFleet 上的最高现货价格(SGESlurm、和Torque)。仅当 cluster_type 设置设为 spot 时使用。如果您未指定值,将按现货价格收费,上限为按需价格。如果定义了该queue_settings设置,则必须删除此设置并替换为[compute_resource]部分中的spot_price设置。

如果计划程序为 awsbatch,请改用 spot_bid_percentage

如需帮助查找符合您需求的竞价型实例,请参阅竞价型实例顾问

spot_price = 1.50
注意

在Amazon ParallelCluster版本 2.5.0 中cluster_type = spot,如果spot_price未指定,则实例启动失 ComputeFleet 败。2.5.1 已在Amazon ParallelCluster版本 2.5.1 中修复此问题。

更新策略:可以在更新期间更改此设置。

tags

(可选)定义要使用的标签Amazon CloudFormation。

如果通过 --tags 指定了命令行标签,则它们将与配置标签合并。

命令行标签覆盖具有相同键的配置标签。

标签是 JSON 格式的。不要在大括号之外使用引号。

有关更多信息,请参阅Amazon CloudFormation用户指南中的Amazon CloudFormation资源标签类型

tags = {"key" : "value", "key2" : "value2"}

更新策略:如果更改此设置,则不允许更新。

注意

更新策略不支持更改Amazon ParallelCluster版本 2.8.0 至版本 2.9.1 的tags设置。

对于版本 2.10.0 到 2.11.7,列出的支持更改tags设置的更新策略不准确。不支持修改此设置时进行集群更新。

template_url

(可选)定义用于创建集群的Amazon CloudFormation模板的路径。

更新使用最初用于创建堆栈的模板。

默认值为 https://aws_region_name-aws-parallelcluster.s3.amazonaws.com/templates/aws-parallelcluster-version.cfn.json

警告

这是一个高级参数。对此设置的任何更改需自行承担风险。

template_url = https://us-east-1-aws-parallelcluster.s3.amazonaws.com/templates/aws-parallelcluster-2.11.9.cfn.json

更新策略:更新期间不分析此设置。

vpc_settings

(必填)标识部署集群的 Amazon VPC 配置[vpc]部分。分区名称必须以字母开头,并且只能包含字母、数字 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (_) 和下划线 (

有关更多信息,请参阅以下以下更多信息,[vpc]请参阅以下以下更多信息。

例如,以下设置指定启动部分用[vpc public]于 Amazon VPC 配置。

vpc_settings = public

更新策略:如果更改此设置,则不允许更新。