配置 Amazon ParallelCluster - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置 Amazon ParallelCluster

安装之后 Amazon ParallelCluster,完成以下配置步骤。

确认你的 Amazon 账户的角色包含运行所需的权限pclusterCLI。有关更多信息,请参阅 Amazon ParallelCluster 实例和用户策略示例

设置你的 Amazon 证书。有关更多信息,请参阅配置 Amazon CLI中的 Amazon CLI 用户指南

$ aws configure AWS Access Key ID [None]: AKIAIOSFODNN7EXAMPLE AWS Secret Access Key [None]: wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY Default Amazon Web Services 区域 name [us-east-1]: us-east-1 Default output format [None]:

这些区域有: Amazon Web Services 区域 启动集群的位置必须至少有一个 Amazon EC2 密钥对。有关更多信息,请参阅《亚马逊EC2用户指南》中的亚马逊EC2密钥对

$ pcluster configure

该配置向导会提示您输入所需的所有信息以创建集群。使用时序列的细节会有所不同 Amazon Batch 作为调度器与使用相比 Slurm。 有关集群配置的更多信息,请参阅配置

注意

从版本 2.11.5 开始, Amazon ParallelCluster 不支持使用 SGE 或者 Torque 调度器。你可以继续在 2.11.4 及之前的版本中使用它们,但它们没有资格获得 future 的更新或疑难解答支持 Amazon 服务和 Amazon Support 团队。

Slurm

从有效列表中 Amazon Web Services 区域 标识符,选择 Amazon Web Services 区域 你想让你的集群运行在哪里。

注意

的名单 Amazon Web Services 区域 显示的基于您账户的分区,仅包括 Amazon Web Services 区域 已为您的账户启用。有关启用的更多信息 Amazon Web Services 区域 对于您的账户,请参阅管理 Amazon Web Services 区域中的 Amazon Web Services 一般参考。 显示的示例来自 Amazon 全局分区。如果您的账户位于 Amazon GovCloud (US) 分区,仅限 Amazon Web Services 区域 在该分区中列出(gov-us-east-1gov-us-west-1)。同样,如果您的账户位于 Amazon 仅显示了cn-north-1和的cn-northwest-1中国分区。如需查看完整列表 Amazon Web Services 区域 由 Amazon ParallelCluster,请参阅 支持的区域

Allowed values for the Amazon Web Services 区域 ID: 1. af-south-1 2. ap-east-1 3. ap-northeast-1 4. ap-northeast-2 5. ap-south-1 6. ap-southeast-1 7. ap-southeast-2 8. ca-central-1 9. eu-central-1 10. eu-north-1 11. eu-south-1 12. eu-west-1 13. eu-west-2 14. eu-west-3 15. me-south-1 16. sa-east-1 17. us-east-1 18. us-east-2 19. us-west-1 20. us-west-2 Amazon Web Services 区域 ID [ap-northeast-1]:

选择要用于集群的计划程序。

Allowed values for Scheduler: 1. slurm 2. awsbatch Scheduler [slurm]:

选择操作系统。

Allowed values for Operating System: 1. alinux2 2. centos7 3. ubuntu1804 4. ubuntu2004 Operating System [alinux2]:
注意

中添加alinux2了对 Support 的支持 Amazon ParallelCluster 版本 2.6.0。

输入计算节点集群的最小和最大大小。这是用实例数来衡量的。

Minimum cluster size (instances) [0]: Maximum cluster size (instances) [10]:

输入头节点和计算节点的实例类型。对于实例类型,您的账户实例限制足够大,足以满足您的要求。有关更多信息,请参阅 Amazon EC2 用户指南中的按需实例限制

Master instance type [t2.micro]: Compute instance type [t2.micro]:

密钥对是从选定的 Amazon EC2 注册的密钥对中选择的 Amazon Web Services 区域.

Allowed values for EC2 Key Pair Name: 1. prod-uswest1-key 2. test-uswest1-key EC2 Key Pair Name [prod-uswest1-key]:

完成前面的步骤后,决定是使用现有VPC还是出租 Amazon ParallelCluster VPC为你创建一个。如果你没有正确配置VPC, Amazon ParallelCluster 可以创建一个新的。它将使用同一公有子网中的头节点和计算节点,或者仅使用公有子网中的头节点,所有节点都在私有子网中。有可能达到你的数量VPCs上限 Amazon Web Services 区域。 每个的默认限制VPCs为五个 Amazon Web Services 区域。 有关此限制以及如何申请提高限制的更多信息,请参阅 Amazon VPC 用户指南中的VPC和子网

如果你让 Amazon ParallelCluster 创建VPC,您必须决定是否所有节点都应位于公有子网中。

重要

VPCs由... 创建 Amazon ParallelCluster 默认情况下不要启用VPC流日志。VPC使用流日志,您可以捕获有关进出您的网络接口的 IP 流量的信息VPCs。有关更多信息,请参阅 Amazon VPC 用户指南中的VPC流日志

注意

如果你愿意1. Master in a public subnet and compute fleet in a private subnet, Amazon ParallelCluster 创建的NAT网关会产生额外费用,即使您指定了免费套餐资源也是如此。

Automate VPC creation? (y/n) [n]: y Allowed values for Network Configuration: 1. Master in a public subnet and compute fleet in a private subnet 2. Master and compute fleet in the same public subnet Network Configuration [Master in a public subnet and compute fleet in a private subnet]: 1 Beginning VPC creation. Please do not leave the terminal until the creation is finalized

如果不创建新的VPC,则必须选择现有的VPC。

如果你选择拥有 Amazon ParallelCluster 创建VPC,记下VPC身份证这样你就可以使用 Amazon CLI 稍后再将其删除。

Automate VPC creation? (y/n) [n]: n Allowed values for VPC ID: # id name number_of_subnets --- --------------------- --------------------------------- ------------------- 1 vpc-0b4ad9c4678d3c7ad ParallelClusterVPC-20200118031893 2 2 vpc-0e87c753286f37eef ParallelClusterVPC-20191118233938 5 VPC ID [vpc-0b4ad9c4678d3c7ad]: 1

选择之后VPC,您需要决定是使用现有子网还是创建新子网。

Automate Subnet creation? (y/n) [y]: y
Creating CloudFormation stack... Do not leave the terminal until the process has finished
Amazon Batch

从有效列表中 Amazon Web Services 区域 标识符,选择 Amazon Web Services 区域 你想让你的集群运行在哪里。

Allowed values for Amazon Web Services 区域 ID: 1. ap-northeast-1 2. ap-northeast-2 3. ap-south-1 4. ap-southeast-1 5. ap-southeast-2 6. ca-central-1 7. eu-central-1 8. eu-north-1 9. eu-west-1 10. eu-west-2 11. eu-west-3 12. sa-east-1 13. us-east-1 14. us-east-2 15. us-west-1 16. us-west-2 Amazon Web Services 区域 ID [ap-northeast-1]:

选择要用于集群的计划程序。

Allowed values for Scheduler: 1. slurm 2. awsbatch Scheduler [awsbatch]:

当选择 awsbatch 作为计划程序时,alinux2 将用作操作系统。

输入计算节点集群的最小和最大大小。这是用来衡量的vCPUs。

Minimum cluster size (vcpus) [0]: Maximum cluster size (vcpus) [10]:

输入头节点实例类型。使用 awsbatch 调度器时,计算节点使用的实例类型为 optimal

Master instance type [t2.micro]:

Amazon EC2 密钥对是从选定的 Amazon EC2 注册的密钥对中选择的 Amazon Web Services 区域.

Allowed values for EC2 Key Pair Name: 1. prod-uswest1-key 2. test-uswest1-key EC2 Key Pair Name [prod-uswest1-key]:

决定是使用现有VPCs还是出租 Amazon ParallelCluster VPCs为你创造。如果你没有正确配置VPC, Amazon ParallelCluster 可以创建一个新的。它将使用同一公有子网中的头节点和计算节点,或者仅使用公有子网中的头节点,所有节点都在私有子网中。有可能达到你的数量VPCs上限 Amazon Web Services 区域。 默认数字VPCs为五。有关此限制以及如何申请提高限制的更多信息,请参阅 Amazon VPC 用户指南中的VPC和子网

重要

VPCs由... 创建 Amazon ParallelCluster 默认情况下不要启用VPC流日志。VPC使用流日志,您可以捕获有关进出您的网络接口的 IP 流量的信息VPCs。有关更多信息,请参阅 Amazon VPC 用户指南中的VPC流日志

如果你让 Amazon ParallelCluster 创建VPC,决定是否所有节点都应位于公有子网中。

注意

如果你愿意1. Master in a public subnet and compute fleet in a private subnet, Amazon ParallelCluster 创建的NAT网关会产生额外费用,即使您指定了免费套餐资源也是如此。

Automate VPC creation? (y/n) [n]: y Allowed values for Network Configuration: 1. Master in a public subnet and compute fleet in a private subnet 2. Master and compute fleet in the same public subnet Network Configuration [Master in a public subnet and compute fleet in a private subnet]: 1 Beginning VPC creation. Please do not leave the terminal until the creation is finalized

如果不创建新的VPC,则必须选择现有的VPC。

如果你选择拥有 Amazon ParallelCluster 创建VPC,记下VPC身份证这样你就可以使用 Amazon CLI 稍后再将其删除。

Automate VPC creation? (y/n) [n]: n Allowed values for VPC ID: # id name number_of_subnets --- --------------------- --------------------------------- ------------------- 1 vpc-0b4ad9c4678d3c7ad ParallelClusterVPC-20200118031893 2 2 vpc-0e87c753286f37eef ParallelClusterVPC-20191118233938 5 VPC ID [vpc-0b4ad9c4678d3c7ad]: 1

选择VPC完毕后,决定是使用现有子网还是创建新子网。

Automate Subnet creation? (y/n) [y]: y
Creating CloudFormation stack... Do not leave the terminal until the process has finished

完成上述步骤后,一个简单的集群将启动到VPC。VPC使用支持公有 IP 地址的现有子网。该子网的路由表为 0.0.0.0/0 => igw-xxxxxx。请注意以下条件:

  • VPC必备DNS Resolution = yesDNS Hostnames = yes

  • 还VPC应该有正确的DHCPdomain-name选项 Amazon Web Services 区域。 默认DHCP选项集已经指定了所需的 AmazonProvidedDNS。 如果指定多个域名服务器,请参阅《Amazon VPC 用户指南》中的DHCP选项集。使用私有子网时,请使用NAT网关或内部代理为计算节点启用 Web 访问。有关更多信息,请参阅 网络配置

但所有设置都包含有效值时,您可以通过运行创建命令来启动集群:

$ pcluster create mycluster

集群达到 “CREATE_COMPLETE” 状态后,您可以使用普通的SSH客户端设置连接到该集群。有关连接亚马逊EC2实例的更多信息,请参阅亚马逊EC2用户指南中的EC2用户指南

要删除该集群,请运行以下命令。

$ pcluster delete --region us-east-1 mycluster

要删除中的网络资源VPC,您可以删除 CloudFormation 网络堆栈。堆栈名称以” 开头parallelclusternetworking-“并以" YYYYMMDDHHMMSS "格式包含创建时间。您可以使用 list-stacks 命令列出堆栈。

$ aws --region us-east-1 cloudformation list-stacks \ --stack-status-filter "CREATE_COMPLETE" \ --query "StackSummaries[].StackName" | \ grep -e "parallelclusternetworking-" "parallelclusternetworking-pubpriv-20191029205804"

可以使用 delete-stack 命令删除堆栈。

$ aws --region us-east-1 cloudformation delete-stack \ --stack-name parallelclusternetworking-pubpriv-20191029205804

为您pcluster configure创建VPC的不是在 CloudFormation 网络堆栈中创建的。你可以在控制台中VPC手动将其删除,也可以使用 Amazon CLI.

$ aws --region us-east-1 ec2 delete-vpc --vpc-id vpc-0b4ad9c4678d3c7ad