配置 Amazon ParallelCluster - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置 Amazon ParallelCluster

安装后Amazon ParallelCluster,请完成以下配置步骤。

首先,设置Amazon凭证。有关更多信息,请参阅 。配置Amazon CLI中的Amazon CLI用户指南

$ aws configure AWS Access Key ID [None]: AKIAIOSFODNN7EXAMPLE AWS Secret Access Key [None]: wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY Default region name [us-east-1]: us-east-1 Default output format [None]:

启动集群的区域必须至少有一个 Amazon EC2 key pair。有关更多信息,请参阅 。Amazon EC2 密钥对中的适用于 Linux 实例的 Amazon EC2 用户指南

$ pcluster configure

该配置向导会提示您输入所需的所有信息以创建集群。序列的细节在使用Amazon Batch作为调度程序与使用SGE、Slurm,或者Torque。

警告

从二零一二年十二月三十一日开始Amazon将不再包含SGE和Torque支持所有发布版本的Amazon ParallelCluster。先前版本Amazon ParallelCluster支持SGE和Torque仍然可供下载和使用。但是,这些版本将不符合以后的更新或故障排除支持的条件Amazon服务和AmazonSupport 团队。此外,未来的版本Amazon ParallelCluster之前和之后 12 月 31 日,2021 年将不包括任何支持SGE或者Torque。

SGE, Slurm, or Torque

从有效的列表 Amazon Web Services 区域 标识符,选择要在其中运行集群的区域。

注意

显示的区域列表基于您账户的分区,并且仅包括为您的账户启用的区域。有关为您的帐户启用区域的更多信息,请参阅管理 Amazon Web Services 区域 中的Amazon一般参考。显示的示例来自Amazon全球分区。如果您的账户处于 Amazon GovCloud (US) 分区,则仅列出该分区中的区域(gov-us-east-1gov-us-west-1)。同样,如果您的帐户位于Amazon只有中国分区cn-north-1cn-northwest-1将会显示。有关受支持的区域的完整列表,请参阅Amazon ParallelCluster,请参阅支持的区域

Allowed values for the Amazon Web Services 区域 ID: 1. af-south-1 2. ap-east-1 3. ap-northeast-1 4. ap-northeast-2 5. ap-south-1 6. ap-southeast-1 7. ap-southeast-2 8. ca-central-1 9. eu-central-1 10. eu-north-1 11. eu-south-1 12. eu-west-1 13. eu-west-2 14. eu-west-3 15. me-south-1 16. sa-east-1 17. us-east-1 18. us-east-2 19. us-west-1 20. us-west-2 Amazon Web Services 区域 ID [ap-northeast-1]:

选择要用于集群的计划程序。

Allowed values for Scheduler: 1. sge 2. torque 3. slurm 4. awsbatch Scheduler [sge]:

选择操作系统。

Allowed values for Operating System: 1. alinux 2. alinux2 3. centos7 4. centos8 5. ubuntu1804 6. ubuntu2004 Operating System [alinux]:
注意

对该项的支持alinux2增加了Amazon ParallelCluster版本 2.6.0。

输入计算节点集群的最小和最大大小。这是以实例数量来衡量的。

Minimum cluster size (instances) [0]: Maximum cluster size (instances) [10]:

输入头部和计算节点实例类型。例如,您的账户实例限制足以满足您的要求。有关更多信息,请参阅 。按需实例限制中的适用于 Linux 实例的 Amazon EC2 用户指南

Master instance type [t2.micro]: Compute instance type [t2.micro]:

key pair 是从所选区域中向 Amazon EC2 注册的密钥对中选择的。

Allowed values for EC2 Key Pair Name: 1. prod-uswest1-key 2. test-uswest1-key EC2 Key Pair Name [prod-uswest1-key]:

完成上述步骤后,决定是使用现有 VPC 还是让Amazon ParallelCluster为您创建 VPC。如果您没有正确配置的 VPC,请Amazon ParallelCluster可以创建新的值。它要么使用同一公有子网中的头节点和计算节点,要么只使用公有子网中所有节点都位于私有子网中的头节点。您可以达到您对某个地区的 VPC 数量的限制。默认限制为每个区域五个 VPC。有关此限制以及如何请求提高限制的更多信息,请参阅。VPC 和子网中的Amazon VPC 用户指南

如果您让Amazon ParallelCluster创建 VPC 时,您必须决定是否所有节点都应位于公有子网中。

重要

创建的 VPCAmazon ParallelCluster默认情况下不启用 VPC 流日志。利用 VPC 流日志,您可以捕获有关传入和传出您的 VPC 中网络接口的 IP 流量的信息。有关更多信息,请参阅 。VPC 流日志中的Amazon VPC 用户指南

Automate VPC creation? (y/n) [n]: y Allowed values for Network Configuration: 1. Master in a public subnet and compute fleet in a private subnet 2. Master and compute fleet in the same public subnet Network Configuration [Master in a public subnet and compute fleet in a private subnet]: 1 Beginning VPC creation. Please do not leave the terminal until the creation is finalized

如果您没有创建新 VPC,则必须选择现有 VPC。

Automate VPC creation? (y/n) [n]: n Allowed values for VPC ID: # id name number_of_subnets --- --------------------- --------------------------------- ------------------- 1 vpc-0b4ad9c4678d3c7ad ParallelClusterVPC-20200118031893 2 2 vpc-0e87c753286f37eef ParallelClusterVPC-20191118233938 5 VPC ID [vpc-0b4ad9c4678d3c7ad]: 1

选择 VPC 后,您需要决定是使用现有子网还是创建新子网。

Automate Subnet creation? (y/n) [y]: y
Creating CloudFormation stack... Do not leave the terminal until the process has finished
Amazon Batch

从有效的列表 Amazon Web Services 区域 标识符,选择要在其中运行集群的区域。

Allowed values for Amazon Web Services 区域 ID: 1. ap-northeast-1 2. ap-northeast-2 3. ap-south-1 4. ap-southeast-1 5. ap-southeast-2 6. ca-central-1 7. eu-central-1 8. eu-north-1 9. eu-west-1 10. eu-west-2 11. eu-west-3 12. sa-east-1 13. us-east-1 14. us-east-2 15. us-west-1 16. us-west-2 Amazon Web Services 区域 ID [ap-northeast-1]:

选择要用于集群的计划程序。

Allowed values for Scheduler: 1. sge 2. torque 3. slurm 4. awsbatch Scheduler [sge]:

当选择 awsbatch 作为计划程序时,alinux2 将用作操作系统。

输入计算节点集群的最小和最大大小。这是在 vCPUs 中测量的。

Minimum cluster size (vcpus) [0]: Maximum cluster size (vcpus) [10]:

输入头节点实例类型。使用awsbatch调度程序时,计算节点使用optimal

Master instance type [t2.micro]:

Amazon EC2 key pair 是从所选区域中向 Amazon EC2 注册的密钥对中选择的。

Allowed values for EC2 Key Pair Name: 1. prod-uswest1-key 2. test-uswest1-key EC2 Key Pair Name [prod-uswest1-key]:

决定是使用现有 VPC 还是让Amazon ParallelCluster为您创建 VPC。如果您没有正确配置的 VPC,请Amazon ParallelCluster可以创建新的值。它要么使用同一公有子网中的头节点和计算节点,要么只使用公有子网中所有节点都位于私有子网中的头节点。您可以达到您对某个地区的 VPC 数量的限制。VPC 的默认数量为五个。有关此限制以及如何请求提高限制的更多信息,请参阅。VPC 和子网中的Amazon VPC 用户指南

重要

创建的 VPCAmazon ParallelCluster默认情况下不启用 VPC 流日志。利用 VPC 流日志,您可以捕获有关传入和传出您的 VPC 中网络接口的 IP 流量的信息。有关更多信息,请参阅 。VPC 流日志中的Amazon VPC 用户指南

如果您让Amazon ParallelCluster创建 VPC,决定是否所有节点都应位于公有子网中。

Automate VPC creation? (y/n) [n]: y Allowed values for Network Configuration: 1. Master in a public subnet and compute fleet in a private subnet 2. Master and compute fleet in the same public subnet Network Configuration [Master in a public subnet and compute fleet in a private subnet]: 1 Beginning VPC creation. Please do not leave the terminal until the creation is finalized

如果您没有创建新的 VPC。您必须选择现有 VPC

Automate VPC creation? (y/n) [n]: n Allowed values for VPC ID: # id name number_of_subnets --- --------------------- --------------------------------- ------------------- 1 vpc-0b4ad9c4678d3c7ad ParallelClusterVPC-20200118031893 2 2 vpc-0e87c753286f37eef ParallelClusterVPC-20191118233938 5 VPC ID [vpc-0b4ad9c4678d3c7ad]: 1

选择 VPC 后,决定是使用现有子网还是创建新子网。

Automate Subnet creation? (y/n) [y]: y
Creating CloudFormation stack... Do not leave the terminal until the process has finished

在完成上述步骤后,将在 VPC 中启动一个简单的集群。VPC 使用支持公有 IP 地址的现有子网。子网的路由表为0.0.0.0/0 => igw-xxxxxx。请注意以下条件:

  • VPC 必须具有 DNS Resolution = yesDNS Hostnames = yes

  • VPC 还应具有带适用于区域的正确 domain-name 的 DHCP 选项。默认的 DHCP 选项集已指定所需的AmazonProvidedDNS。如果指定的域名服务器不止一台,请参阅DHCP 选项集中的Amazon VPC 用户指南。使用私有子网时,请使用 NAT 网关或内部代理对计算节点启用 Web 访问。有关更多信息,请参阅 网络配置

但所有设置都包含有效值时,您可以通过运行创建命令来启动集群:

$ pcluster create mycluster

在集群达到 “CREATE_COMPLETE” 状态后,您可以使用常规 SSH 客户端/设置来连接它。有关连接到 Amazon EC2 实例的更多信息,请参阅EC2 用户指南中的适用于 Linux 实例的 Amazon EC2 用户指南

如果pcluster configure创建了一个新 VPC,您可以通过删除Amazon CloudFormation堆栈创建。名称的开头将为”parallelclusternetworking-”,并以 “YYYMDDHMSS” 格式包含创建时间。您可以使用列表堆栈命令。

$ aws --region us-east-2 cloudformation list-stacks \ --stack-status-filter "CREATE_COMPLETE" \ --query "StackSummaries[].StackName" | \ grep -e "parallelclusternetworking-" "parallelclusternetworking-pubpriv-20191029205804"

堆栈可以使用delete-stack命令。

$ aws --region us-west-2 cloudformation delete-stack \ --stack-name parallelclusternetworking-pubpriv-20191029205804