[cluster] 部分 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

[cluster] 部分

定义可用于创建集群的集群模板。配置文件可以包含多个 [cluster] 部分。

可以使用同一个集群模板创建多个集群。

格式为 [cluster cluster-template-name]。默认情况下,使用由 [global] 部分中的 cluster_template 设置命名的 [cluster] 部分,但可以在 pcluster 命令行上覆盖。

cluster-template-name 必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

[cluster default]

additional_cfn_template

(可选)定义随集群启动的其他 Amazon CloudFormation 模板。此附加模板用于创建存在于集群外部但属于集群生命周期一部分的资源。

值必须是指向公有模板的 HTTP URL,并提供所有参数。

没有默认值。

additional_cfn_template = https://<bucket-name>.s3.amazonaws.com/my-cfn-template.yaml

更新策略:如果更改此设置,则不允许更新。

additional_iam_policies

(可选)指定 Amazon EC2 的 IAM 策略的 Amazon 资源名称 (ARN) 列表。除了 Amazon ParallelCluster 所需的权限(以逗号分隔)之外,此列表也附加到集群中使用的根角色。IAM 策略名称及其 ARN 不相同。名称不能用作 additional_iam_policies 的参数。

如果您打算在集群节点的默认设置中添加额外的策略,我们建议您使用 additional_iam_policies 设置传递其他自定义 IAM 策略,而不是使用 ec2_iam_role 设置添加特定的 EC2 策略。这是因为 additional_iam_policies 已添加到 Amazon ParallelCluster 所需的默认权限中。现有 ec2_iam_role 必须包含所需的所有权限。但是,随着功能的添加,不同版本之间所需的权限通常会有所不同,因此现有的 ec2_iam_role 可能会过时。

没有默认值。

additional_iam_policies = arn:aws:iam::123456789012:policy/CustomEC2Policy
注意

在 Amazon ParallelCluster 版本 2.5.0 中添加了对 additional_iam_policies 的支持。

更新策略:可以在更新期间更改此设置。

base_os

(必需)指定在集群中使用的操作系统类型。

可用的选项为:

  • alinux2

  • centos7

  • ubuntu1804

  • ubuntu2004

注意

对于基于 Amazon Graviton 的实例,仅支持 alinux2ubuntu1804ubuntu2004

注意

在 Amazon ParallelCluster 版本 2.11.4 中删除了对 centos8 的支持。在 Amazon ParallelCluster 版本 2.11.0 中添加了对 ubuntu2004 的支持,并删除了对 alinuxubuntu1604 的支持。在 Amazon ParallelCluster 版本 2.10.0 中添加了对 centos8 的支持,并删除了对 centos6 的支持。在 Amazon ParallelCluster 版本 2.6.0 中添加了对 alinux2 的支持。在 Amazon ParallelCluster 版本 2.5.0 中添加了对 ubuntu1804 的支持,并删除了对 ubuntu1404 的支持。

除了下表中提到的不支持 centos7 的特定 Amazon Web Services 区域外,所有其他 Amazon 商业区域支持以下所有操作系统。

分区 (Amazon Web Services 区域) alinux2 centos7 ubuntu1804ubuntu2004
商业(未明确提及的所有 Amazon Web Services 区域) True True True
Amazon GovCloud(美国东部)(us-gov-east-1) True False True
Amazon GovCloud(美国西部)(us-gov-west-1) True False True
中国(北京)(cn-north-1) True False True
中国(宁夏)(cn-northwest-1) True False True
注意

base_os 参数还确定用于登录集群的用户名。

  • centos7: centos

  • ubuntu1804ubuntu2004ubuntu

  • alinux2: ec2-user

注意

在 Amazon ParallelCluster 版本 2.7.0 之前,base_os 参数是可选的,默认值为 alinux。从 Amazon ParallelCluster 版本 2.7.0 开始,base_os 参数是必需的。

注意

如果 scheduler 参数为 awsbatch,则仅支持 alinux2

base_os = alinux2

更新策略:如果更改此设置,则不允许更新。

cluster_resource_bucket

(可选)指定用于托管创建集群时生成的资源的 Amazon S3 存储桶的名称。桶必须启用版本控制。有关更多信息,请参阅 Amazon Simple Storage Service 用户指南 中的使用版本控制。此存储桶可用于多个集群。桶和集群必须位于同一区域中。

如果未指定此参数,则在创建集群时会创建新桶。新桶的名称为 parallelcluster-random_string。在此名称中,random_string 是由字母数字字符组成的随机字符串。所有集群资源都存储在此存储桶中,路径的格式为 bucket_name/resource_directoryresource_directory 的格式为 stack_name-random_string,其中 stack_name 是 Amazon ParallelCluster 使用的其中一个 Amazon CloudFormation 堆栈的名称。bucket_name 的值可以在 parallelcluster-clustername 堆栈输出的 ResourcesS3Bucket 值中找到。resource_directory 的值可以在同一堆栈的 ArtifactS3RootDirectory 输出值中找到。

默认值为 parallelcluster-random_string

cluster_resource_bucket = my-s3-bucket
注意

在 Amazon ParallelCluster 版本 2.10.0 中添加了对 cluster_resource_bucket 的支持。

更新策略:如果更改此设置,则不允许更新。不能强制更新此设置。

cluster_type

(可选)定义要启动的集群的类型。如果定义了 queue_settings 设置,则必须在 [queue] 部分中将此设置替换为 compute_type 设置。

有效的选项为:ondemandspot

默认值为 ondemand

有关竞价型实例的更多信息,请参阅使用竞价型实例

注意

使用竞价型实例要求您的账户中存在 AWSServiceRoleForEC2Spot 服务相关角色。要使用 Amazon CLI 在账户中创建此角色,请运行以下命令:

aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

有关更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的竞价型实例请求的服务相关角色

cluster_type = ondemand

更新策略:必须停止计算实例集才能更改此设置以进行更新。

compute_instance_type

(可选)定义用于集群计算节点的 Amazon EC2 实例类型。该实例类型的架构必须与用于 master_instance_type 设置的架构相同。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中将此设置替换为 instance_type 设置。

如果您使用的是 awsbatch 调度器,请参阅 Amazon Batch UI 中的计算环境创建以了解支持的实例类型的列表。

默认值为 t2.micro;当调度器为 awsbatch 时,为 optimal

compute_instance_type = t2.micro
注意

在 Amazon ParallelCluster 版本 2.8.0 中添加了对基于 Amazon Graviton 的实例(包括 A1C6g 实例)的支持。

更新策略:必须停止计算实例集才能更改此设置以进行更新。

compute_root_volume_size

(可选)指定 ComputeFleet 根卷大小,以吉字节 (GiB) 为单位。AMI 必须支持 growroot

默认值为 35

注意

对于 2.5.0 和 2.10.4 之间的 Amazon ParallelCluster 版本,默认值为 25。在 Amazon ParallelCluster 版本 2.5.0 之前,默认值为 20。

compute_root_volume_size = 35

更新策略:必须停止计算实例集才能更改此设置以进行更新。

custom_ami

(可选)指定要用于头节点和计算节点的自定义 AMI(而非默认的已发布 AMI)的 ID。有关更多信息,请参阅 修改 AMI构建自定义 Amazon ParallelCluster AMI

没有默认值。

custom_ami = ami-00d4efc81188687a0

如果自定义 AMI 需要其他权限才能启动,则必须将这些权限添加到用户和头节点策略中。

例如,如果自定义 AMI 具有与之关联的加密快照,则用户和头节点策略中都需要以下其他策略:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:ReEncrypt*", "kms:CreateGrant", "kms:Decrypt" ], "Resource": [ "arn:aws:kms:<AWS_REGION>:<AWS_ACCOUNT_ID>:key/<AWS_KMS_KEY_ID>" ] } ] }

更新策略:如果更改此设置,则不允许更新。

cw_log_settings

(可选)使用 CloudWatch Logs 配置标识 [cw_log] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [cw_log] 部分亚马逊 CloudWatch 控制面板与 Amazon CloudWatch 日志集成

例如,以下设置指定将以 [cw_log custom-cw] 开始的部分用于 CloudWatch Logs 配置。

cw_log_settings = custom-cw
注意

在 Amazon ParallelCluster 版本 2.6.0 中添加了对 cw_log_settings 的支持。

更新策略:如果更改此设置,则不允许更新。

dashboard_settings

(可选)使用 CloudWatch 控制面板配置标识 [dashboard] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [dashboard] 部分

例如,以下设置指定将以 [dashboard custom-dashboard 开始的部分用于 CloudWatch 控制面板配置。

dashboard_settings = custom-dashboard
注意

在 Amazon ParallelCluster 版本 2.10.0 中添加了对 dashboard_settings 的支持。

更新策略:可以在更新期间更改此设置。

dcv_settings

(可选)使用 NICE DCV 配置标识 [dcv] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [dcv] 部分

例如,以下设置指定将以 [dcv custom-dcv] 开始的部分用于 NICE DCV 配置。

dcv_settings = custom-dcv
注意

对于基于 Amazon Graviton 的实例,仅在 alinux2 上支持 NICE DCV。

注意

在 Amazon ParallelCluster 版本 2.5.0 中添加了对 dcv_settings 的支持。

更新策略:如果更改此设置,则不允许更新。

desired_vcpus

(可选)指定计算环境中所需的 vCPU 数。仅在调度器为 awsbatch 时使用。

默认值为 4

desired_vcpus = 4

更新策略:在更新期间不分析此设置。

disable_cluster_dns

(可选)指定是否不应为集群创建 DNS 条目。默认情况下,Amazon ParallelCluster 创建 Route 53 托管区。如果 disable_cluster_dns 设置为 true,则不会创建托管区。

默认值为 false

disable_cluster_dns = true
警告

集群需要名称解析系统才能正常运行。如果 disable_cluster_dns 设置为 true,则还必须提供其他名称解析系统。

重要

只有在指定了 queue_settings 设置时才支持 disable_cluster_dns = true

注意

在 Amazon ParallelCluster 版本 2.9.1 中添加了对 disable_cluster_dns 的支持。

更新策略:如果更改此设置,则不允许更新。

disable_hyperthreading

(可选)禁用头节点和计算节点上的超线程。并非所有实例类型都可以禁用超线程。有关支持禁用超线程的实例类型列表,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的每种实例类型的 CPU 内核以及每个 CPU 内核的线程。如果定义了 queue_settings 设置,则可以定义此设置,也可以定义 [queue] 部分中的 disable_hyperthreading 设置。

默认值为 false

disable_hyperthreading = true
注意

disable_hyperthreading 仅在 scheduler = awsbatch 时影响头节点。

注意

在 Amazon ParallelCluster 版本 2.5.0 中添加了对 disable_hyperthreading 的支持。

更新策略:如果更改此设置,则不允许更新。

ebs_settings

(可选)使用头节点上挂载的 Amazon EBS 卷标识 [ebs] 部分。使用多个 Amazon EBS 卷时,请以列表形式输入这些参数,用逗号分隔每个参数。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

支持最多五 (5) 个额外的 Amazon EBS 卷。

有关更多信息,请参阅 [ebs] 部分

例如,以下设置指定将以 [ebs custom1][ebs custom2] 开始的部分用于 Amazon EBS 卷。

ebs_settings = custom1, custom2

更新策略:如果更改此设置,则不允许更新。

ec2_iam_role

(可选)定义将附加到集群中所有实例的 Amazon EC2 的现有 IAM 角色的名称。IAM 角色名称及其 Amazon 资源名称 (ARN) 是不同的。ARN 不能用作 ec2_iam_role 的参数。

如果指定了此选项,则忽略 additional_iam_policies 设置。如果您打算在集群节点的默认设置中添加额外的策略,我们建议您使用 additional_iam_policies 设置传递其他自定义 IAM 策略,而不是使用 ec2_iam_role 设置。

如果未指定此选项,则使用 Amazon EC2 的默认 Amazon ParallelCluster IAM 角色。有关更多信息,请参阅 Amazon Identity and Access Management 中的角色 Amazon ParallelCluster

没有默认值。

ec2_iam_role = ParallelClusterInstanceRole

更新策略:如果更改此设置,则不允许更新。

efs_settings

(可选)指定与 Amazon EFS 文件系统相关的设置。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [efs] 部分

例如,以下设置指定将以 [efs customfs] 开始的部分用于 Amazon EFS 文件系统配置。

efs_settings = customfs

更新策略:如果更改此设置,则不允许更新。

enable_efa

(可选)如果存在,则指定为计算节点启用 Elastic Fabric Adapter (EFA)。要查看支持 EFA 的 EC2 实例的列表,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的支持的实例类型。有关更多信息,请参阅 Elastic Fabric Adapter。如果定义了 queue_settings 设置,则可以定义此设置,也可以定义 [queue] 部分中的 enable_efa 设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅 placementplacement_group

enable_efa = compute
注意

Amazon ParallelCluster 版本 2.10.1 中添加了对基于 Arm 的 Graviton2 实例上的 EFA 的支持。

更新策略:如果更改此设置,则不允许更新。

enable_efa_gdr

(可选)从 Amazon ParallelCluster 版本 2.11.3 开始,此设置无效。如果实例类型和操作系统都支持 Elastic Fabric Adapter (EFA),则始终启用对 GPUDirect RDMA(远程直接内存访问)的 Elastic Fabric Adapter (EFA) 支持。

注意

Amazon ParallelCluster 版本 2.10.0 到 2.11.2:如果为 compute,则指定为计算节点启用对 GPUDirect RDMA(远程直接内存访问)的 Elastic Fabric Adapter (EFA) 支持。将此设置设置为 compute 需要先将 enable_efa 设置设为 compute。特定操作系统(base_osalinux2centos7ubuntu1804ubuntu2004)上的特定实例类型 (p4d.24xlarge) 支持针对 GPUDirect RDMA 的 EFA 支持。如果定义了 queue_settings 设置,则可以定义此设置,也可以定义 [queue] 部分中的 enable_efa_gdr 设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅 placementplacement_group

enable_efa_gdr = compute
注意

在 Amazon ParallelCluster 版本 2.10.0 中添加了对 enable_efa_gdr 的支持。

更新策略:必须停止计算实例集才能更改此设置以进行更新。

enable_intel_hpc_platform

(可选)如果存在,则表示接受 Intel Parallel Studio 的最终用户许可协议。这将导致 Intel Parallel Studio 安装在头节点上并与计算节点共享。这使头节点进行引导的时间增加了几分钟。仅 CentOS 7 (base_os = centos7) 上支持 enable_intel_hpc_platform 设置。

默认值为 false

enable_intel_hpc_platform = true
注意

enable_intel_hpc_platform 参数与基于 Amazon Graviton 的实例不兼容。

注意

在 Amazon ParallelCluster 版本 2.5.0 中添加了对 enable_intel_hpc_platform 的支持。

更新策略:如果更改此设置,则不允许更新。

encrypted_ephemeral

(可选)使用 LUKS (Linux Unified Key Setup),通过无法恢复的内存中密钥对临时实例存储卷进行加密。

有关更多信息,请参阅 https://gitlab.com/cryptsetup/cryptsetup/blob/master/README.md

默认值为 false

encrypted_ephemeral = true

更新策略:如果更改此设置,则不允许更新。

ephemeral_dir

(可选)定义实例存储卷(如果使用)的挂载路径。

默认值为 /scratch

ephemeral_dir = /scratch

更新策略:如果更改此设置,则不允许更新。

extra_json

(可选)定义合并到 Chef dna.json 中的额外 JSON。有关更多信息,请参阅 构建自定义 Amazon ParallelCluster AMI

默认值为 {}

extra_json = {}
注意

从 Amazon ParallelCluster 版本 2.6.1 开始,在启动节点时将默认跳过大多数安装食谱以缩短启动时间。要以牺牲启动时间为代价运行所有安装食谱以获得更好的向后兼容性,请将 "skip_install_recipes" : "no" 添加到 extra_json 设置中的 cluster 键。例如:

extra_json = { "cluster" : { "skip_install_recipes" : "no" } }

更新策略:必须停止计算实例集才能更改此设置以进行更新。

fsx_settings

(可选)指定用于定义适用于 Lustre 的 FSx 配置的部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [fsx] 部分

例如,以下设置指定将以 [fsx fs] 开始的部分用于适用于 Lustre 的 FSx 配置。

fsx_settings = fs

更新策略:如果更改此设置,则不允许更新。

iam_lambda_role

(可选)定义现有 Amazon Lambda 执行角色的名称。此角色附加到集群中所有 Lambda 函数。有关更多信息,请参阅Amazon Lambda 开发人员指南 中的 Amazon Lambda 执行角色

注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

IAM 角色名称及其 Amazon 资源名称 (ARN) 是不同的。ARN 不能用作 iam_lambda_role 的参数。如果同时定义了 ec2_iam_roleiam_lambda_role,并且 schedulersgeslurmtorque,则不会创建任何角色。如果 schedulerawsbatch,则在 pcluster start 期间将创建角色。有关示例策略,请参阅 使用 SGE、Slurm 或 Torque 的 ParallelClusterLambdaPolicy使用 awsbatch 的 ParallelClusterLambdaPolicy

没有默认值。

iam_lambda_role = ParallelClusterLambdaRole
注意

在 Amazon ParallelCluster 版本 2.10.1 中添加了对 iam_lambda_role 的支持。

更新策略:可以在更新期间更改此设置。

initial_queue_size

(可选)设置要作为集群中的计算节点启动的 Amazon EC2 实例的初始数量。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 initial_count 设置。

注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

此设置仅适用于传统调度器(SGE、Slurm 和 Torque)。如果 maintain_initial_size 设置为 true,则 initial_queue_size 设置必须至少为一 (1)。

如果调度器是 awsbatch,请改用 min_vcpus

默认值为 2

initial_queue_size = 2

更新策略:可以在更新期间更改此设置。

key_name

(可选)用于启用对实例进行的 SSH 访问的现有 Amazon EC2 密钥对的名称。

key_name = mykey
注意

在 Amazon ParallelCluster 版本 2.11.0 之前,key_name 是必需的设置。

更新策略:如果更改此设置,则不允许更新。

maintain_initial_size

注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

(可选)为传统的调度器(SGE、Slurm 和 Torque)保持自动扩缩组的初始大小。

如果调度器是 awsbatch,请改用 desired_vcpus

此设置是一个布尔标记。如果设置为 true,则自动扩缩组的成员数永远不会少于 initial_queue_size 的值,并且 initial_queue_size 的值必须为一 (1) 或更大。集群仍可以扩展到 max_queue_size 的值。如果为 cluster_type = spot,则自动扩缩组的实例可能会中断,并且大小可能降至 initial_queue_size 以下。

如果设置为 false,则自动扩缩组的成员数可以缩减为零 (0),以防止在不需要资源时闲置。

如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 initial_countmin_count 设置。

默认值为 false

maintain_initial_size = false

更新策略:可以在更新期间更改此设置。

master_instance_type

(可选)定义用于头节点的 Amazon EC2 实例类型。该实例类型的架构必须与用于 compute_instance_type 设置的架构相同。

在具有 Free Tier 的 Amazon Web Services 区域中,默认为 Free Tier 资源类型(t2.microt3.micro)。在没有 Free Tier 的 Amazon Web Services 区域中,默认为 t3.micro。有关 Amazon Free Tier 的更多信息,请参阅 Amazon Free Tier 常见问题

master_instance_type = t2.micro
注意

在 Amazon ParallelCluster 版本 2.10.1 之前,在所有 Amazon Web Services 区域中默认为 t2.micro。在 Amazon ParallelCluster 版本2.10.0 中,头节点不支持 p4d.24xlarge。在 Amazon ParallelCluster 版本 2.8.0 中添加了对基于 Amazon Graviton 的实例(例如 A1C6g)的支持。

更新策略:如果更改此设置,则不允许更新。

master_root_volume_size

(可选)指定头节点根卷大小,以吉字节 (GiB) 为单位。AMI 必须支持 growroot

默认值为 35

注意

对于 2.5.0 和 2.10.4 之间的 Amazon ParallelCluster 版本,默认值为 25。在 Amazon ParallelCluster 版本 2.5.0 之前,默认值为 20。

master_root_volume_size = 35

更新策略:如果更改此设置,则不允许更新。

max_queue_size

(可选)设置集群中可以启动的 Amazon EC2 实例的最大数量。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 max_count 设置。

注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

此设置仅适用于传统调度器(SGE、Slurm 和 Torque)。

如果调度器是 awsbatch,请改用 max_vcpus

默认值为 10

max_queue_size = 10

更新策略:可以在更新期间更改此设置,但如果该值降低,则应停止计算实例集。否则,现有节点可能会被终止。

max_vcpus

(可选)指定计算环境中的最大 vCPU 数。仅在调度器为 awsbatch 时使用。

默认值为 20

max_vcpus = 20

更新策略:更新期间不能减小此设置。

min_vcpus

(可选)awsbatch 调度器保持自动扩缩组的初始大小。

注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

如果调度器是 SGE、Slurm 或 Torque,请改用 maintain_initial_size

计算环境中的成员数绝不会少于 min_vcpus 的值。

默认值为 0

min_vcpus = 0

更新策略:可以在更新期间更改此设置。

placement

(可选)定义集群置放群组逻辑,并使整个集群或仅计算实例能够使用集群置放群组。

如果定义了 queue_settings 设置,则对每个 [queue] 部分,应删除此设置并替换为 placement_group 设置。如果将同一个置放群组用于不同的实例类型,则请求更有可能因容量不足错误而失败。有关更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的实例容量不足。只有事先创建了置放群组并在每个队列的 placement_group 设置中进行了配置,多个队列才能共享该置放群组。如果每个 [queue] 部分都定义了 placement_group 设置,则头节点不能位于队列的置放群组中。

有效选项是 clustercompute

当调度器为 awsbatch 时,不使用此参数。

默认值为 compute

placement = compute

更新策略:如果更改此设置,则不允许更新。

placement_group

(可选)定义集群置放群组。如果定义了 queue_settings 设置,则应在 [queue] 部分中删除此设置并替换为 placement_group 设置。

有效选项为以下值:

  • DYNAMIC

  • 现有的 Amazon EC2 集群置放群组名称

当设置为 DYNAMIC 时,将唯一置放群组作为集群堆栈的一部分进行创建和删除。

当调度器为 awsbatch 时,不使用此参数。

有关置放群组的更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的置放群组。如果将同一个置放群组用于不同的实例类型,则请求更有可能因容量不足错误而失败。有关更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的实例容量不足

没有默认值。

并非所有实例类型都支持集群置放群组。例如,t3.micro 的默认实例类型不支持集群置放群组。有关支持集群置放群组的实例类型列表的信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的集群置放群组规则和限制。有关使用置放群组时的提示,请参阅置放群组和实例启动问题

placement_group = DYNAMIC

更新策略:如果更改此设置,则不允许更新。

post_install

(可选)指定在所有节点引导操作完成后运行的安装后脚本的 URL。有关更多信息,请参阅 自定义引导操作

当使用 awsbatch 作为调度器时,安装后脚本仅在头节点上运行。

参数格式可以是 http://hostname/path/to/script.shs3://bucketname/path/to/script.sh

没有默认值。

post_install = s3://<bucket-name>/my-post-install-script.sh

更新策略:必须停止计算实例集才能更改此设置以进行更新。

post_install_args

(可选)指定要传递到安装后脚本的用双引号引起的参数列表。

没有默认值。

post_install_args = "argument-1 argument-2"

更新策略:必须停止计算实例集才能更改此设置以进行更新。

pre_install

(可选)指定在启动任何节点部署引导操作之前运行的预安装脚本的 URL。有关更多信息,请参阅 自定义引导操作

当使用 awsbatch 作为调度器时,预安装脚本仅在头节点上运行。

参数格式可以是 http://hostname/path/to/script.shs3://bucketname/path/to/script.sh

没有默认值。

pre_install = s3://<bucket-name>/my-pre-install-script.sh

更新策略:必须停止计算实例集才能更改此设置以进行更新。

pre_install_args

(可选)指定要传递到预安装脚本的用双引号引起的参数列表。

没有默认值。

pre_install_args = "argument-3 argument-4"

更新策略:必须停止计算实例集才能更改此设置以进行更新。

proxy_server

(可选)定义 HTTP 或 HTTPS 代理服务器,通常为 http://x.x.x.x:8080

没有默认值。

proxy_server = http://10.11.12.13:8080

更新策略:如果更改此设置,则不允许更新。

queue_settings

(可选)指定集群使用队列而不是同构计算实例集,以及使用的 [queue] 部分。列出的第一个 [queue] 部分是默认的调度器队列。queue 部分名称必须以小写字母开头,不能超过 30 个字符,并且只能包含小写字母、数字和连字符 (-)。

重要

仅在 scheduler 设置为 slurm 时支持 queue_settings。不得指定 cluster_typecompute_instance_typeinitial_queue_sizemaintain_initial_sizemax_queue_sizeplacementplacement_groupspot_price 设置。disable_hyperthreadingenable_efa 设置既可以在 [cluster] 部分中指定,也可以在 [queue] 部分中指定,但不能同时在这些部分中指定。

最多支持五 (5) 个 [queue] 部分

有关更多信息,请参阅 [queue] 部分

例如,以下设置指定使用以 [queue q1][queue q2] 开始的部分。

queue_settings = q1, q2
注意

在 Amazon ParallelCluster 版本 2.9.0 中添加了对 queue_settings 的支持。

更新策略:必须停止计算实例集才能更改此设置以进行更新。

raid_settings

(可选)使用 Amazon EBS 卷 RAID 配置标识 [raid] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [raid] 部分

例如,以下设置指定将以 [raid rs] 开始的部分用于自动扩缩配置。

raid_settings = rs

更新策略:如果更改此设置,则不允许更新。

s3_read_resource

(可选)指定将向 Amazon ParallelCluster 节点授予其只读访问权限的 Amazon S3 资源。

例如,arn:aws:s3:::my_corporate_bucket* 提供对 my_corporate_bucket 存储桶以及该存储桶中的对象的只读访问权限。

有关格式的详细信息,请参阅使用 Amazon S3

没有默认值。

s3_read_resource = arn:aws:s3:::my_corporate_bucket*

更新策略:可以在更新期间更改此设置。

s3_read_write_resource

(可选)指定将向 Amazon ParallelCluster 节点授予其读/写访问权限的 Amazon S3 资源。

例如,arn:aws:s3:::my_corporate_bucket/Development/* 提供对 my_corporate_bucket 存储桶中所有对象的读/写访问权限。

有关格式的详细信息,请参阅使用 Amazon S3

没有默认值。

s3_read_write_resource = arn:aws:s3:::my_corporate_bucket/*

更新策略:可以在更新期间更改此设置。

scaling_settings

使用自动扩缩配置标识 [scaling] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [scaling] 部分

例如,以下设置指定将以 [scaling custom] 开始的部分用于自动扩缩配置。

scaling_settings = custom

更新策略:如果更改此设置,则不允许更新。

scheduler

(必需)定义集群调度器。

有效选项为以下值:

awsbatch

Amazon Batch

有关 awsbatch 调度器的更多信息,请参阅联网设置Amazon Batch (awsbatch)

sge
注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

Son of Grid Engine (SGE)

slurm

Slurm Workload Manager (Slurm)

torque
注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

Torque Resource Manager (Torque)

注意

在 Amazon ParallelCluster 版本 2.7.0 之前,scheduler 参数是可选的,默认值为 sge。从 Amazon ParallelCluster 版本 2.7.0 开始,scheduler 参数是必需的。

scheduler = slurm

更新策略:如果更改此设置,则不允许更新。

shared_dir

(可选)定义共享 Amazon EBS 卷的挂载路径。

请勿将此选项与多个 Amazon EBS 卷一起使用。相反,在每个 [ebs] 部分下提供 shared_dir 值。

有关使用多个 Amazon EBS 卷的详细信息,请参阅 [ebs] 部分

默认值为 /shared

以下示例显示一个在 /myshared 上挂载的共享 Amazon EBS 卷。

shared_dir = myshared

更新策略:如果更改此设置,则不允许更新。

spot_bid_percentage

(可选)awsbatch 为调度器时,设置用于计算 ComputeFleet 的最高 Spot 价格的按需百分比。

如果未指定,则选择当前 Spot 市场价格,最高为按需价格。

spot_bid_percentage = 85

更新策略:可以在更新期间更改此设置。

spot_price

注意

从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 SGE 或 Torque 调度器。

(可选)在传统调度器(SGE、Slurm 和 Torque)上为 ComputeFleet 设置最大 Spot 价格。仅当 cluster_type 设置设为 spot 时使用。如果您不指定值,则按 Spot 价格进行收费,最高为按需价格。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 spot_price 设置。

如果计划程序为 awsbatch,请改用 spot_bid_percentage

有关查找满足您需求的竞价型实例的帮助,请参阅竞价型实例顾问

spot_price = 1.50
注意

在 Amazon ParallelCluster 版本 2.5.0 中,如果 cluster_type = spot 但未指定 spot_price,则 ComputeFleet 的实例启动将失败。已在 Amazon ParallelCluster 版本 2.5.1 中修复此问题。

更新策略:可以在更新期间更改此设置。

tags

(可选)定义要由 Amazon CloudFormation 使用的标签。

如果通过 --tags 指定了命令行标签,则它们将与配置标签合并。

命令行标签覆盖具有相同键的配置标签。

标签是 JSON 格式的。请勿在大括号外使用引号。

有关更多信息,请参阅 Amazon CloudFormation 用户指南 中的Amazon CloudFormation 资源标签类型

tags = {"key" : "value", "key2" : "value2"}

更新策略:如果更改此设置,则不允许更新。

注意

更新策略不支持更改 Amazon ParallelCluster 版本 2.8.0 到版本 2.9.1 的 tags 设置。

对于版本 2.10.0 到版本 2.11.7,列出的支持更改 tags 设置的更新策略不准确。不支持修改此设置时进行集群更新。

template_url

(可选)定义用于创建集群的 Amazon CloudFormation 模板的路径。

更新使用最初用于创建堆栈的模板。

默认值为 https://aws_region_name-aws-parallelcluster.s3.amazonaws.com/templates/aws-parallelcluster-version.cfn.json

警告

这是一个高级参数。对此设置进行任何更改需自行承担风险。

template_url = https://us-east-1-aws-parallelcluster.s3.amazonaws.com/templates/aws-parallelcluster-2.11.9.cfn.json

更新策略:在更新期间不分析此设置。

vpc_settings

(必需)使用将在其中部署集群的 Amazon VPC 配置标识 [vpc] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [vpc] 部分

例如,以下设置指定将以 [vpc public] 开始的部分用于 Amazon VPC 配置。

vpc_settings = public

更新策略:如果更改此设置,则不允许更新。