正在尝试创建集群 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

正在尝试创建集群

使用 3.5.0 及更高Amazon ParallelCluster版本创建集群时,如果--rollback-on-failure设置为则创建集群失败false,请使用pcluster describe-cluster CLI 命令获取状态和故障信息。在这种情况下,pcluster describe-clusterclusterStatus出的预期值为CREATE_FAILED。检查输出中的failures部分以找到failureCodefailureReason。然后,在下一节中,找到匹配项failureCode以获取更多故障排除帮助。有关更多信息,请参阅pcluster describe-cluster

在以下部分中,我们建议您检查头节点上的日志,例如/var/log/cfn-init.log/var/log/chef-client.log文件。有关Amazon ParallelCluster日志以及如何查看日志的更多信息,请参阅用于调试的密钥日志检索和保留日志

如果您没有failureCode,请导航到Amazon CloudFormation控制台查看集群堆栈。查看其他资源上是否存在HeadNodeWaitCondition或故障,以查找其他故障详细信息。Status Reason有关更多信息,请参阅查看上的Amazon CloudFormation活动CREATE_FAILED:检查头节点上的/var/log/cfn-init.log/var/log/chef-client.log文件。

failureCodeOnNodeConfiguredExecutionFailure

  • 它为什么失败了?

    您在配置中的OnNodeConfigured头节点部分提供了自定义脚本来创建集群。但是,自定义脚本无法运行。

  • 如何解决?

    查看该/var/log/cfn-init.log文件以了解有关失败以及如何在自定义脚本中修复问题的更多信息。在此日志快要结束时,您可能会在消息后面看到与OnNodeConfigured脚本相关的运行Running command runpostinstall信息。

failureCodeOnNodeConfiguredDownloadFailure

  • 它为什么失败了?

    您在配置中的OnNodeConfigured头节点部分提供了自定义脚本来创建集群。但是,自定义脚本下载失败。

  • 如何解决?

    确保 URL 有效且访问权限配置正确。有关自定义引导脚本配置的更多信息,请参阅,请参阅自定义引导导导导导导操作

    检查/var/log/cfn-init.log文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeConfigured脚本处理(包括下载)相关的运行Running command runpostinstall信息。

failureCodeOnNodeConfiguredFailure

  • 它为什么失败了?

    您在配置中的OnNodeConfigured头节点部分提供了自定义脚本来创建集群。但是,在集群部署中使用自定义脚本失败。无法确定直接原因,需要进一步调查。

  • 如何解决?

    检查/var/log/cfn-init.log文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeConfigured脚本处理相关的运行Running command runpostinstall信息。

failureCodeOnNodeStartExecutionFailure

  • 它为什么失败了?

    您在配置中的OnNodeStart头节点部分提供了自定义脚本来创建集群。但是,自定义脚本无法运行。

  • 如何解决?

    查看该/var/log/cfn-init.log文件以了解有关失败以及如何在自定义脚本中修复问题的更多信息。在此日志快要结束时,您可能会在消息后面看到与OnNodeStart脚本相关的运行Running command runpreinstall信息。

failureCodeOnNodeStartDownloadFailure

  • 它为什么失败了?

    您在配置中的OnNodeStart头节点部分提供了自定义脚本来创建集群。但是,自定义脚本下载失败。

  • 如何解决?

    确保 URL 有效且访问权限配置正确。有关自定义引导脚本配置的更多信息,请参阅,请参阅自定义引导导导导导导操作

    检查/var/log/cfn-init.log文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeStart脚本处理(包括下载)相关的运行Running command runpreinstall信息。

failureCodeOnNodeStartFailure

  • 它为什么失败了?

    您在配置中的OnNodeStart头节点部分提供了用于创建集群的自定义脚本。但是,在集群部署中使用自定义脚本失败。无法确定直接原因,需要进一步调查。

  • 如何解决?

    检查/var/log/cfn-init.log文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeStart脚本处理相关的运行Running command runpreinstall信息。

failureCodeEbsMountFailure

  • 它为什么失败了?

    群集配置中定义的 EBS 卷无法装载。

  • 如何解决?

    检查/var/log/chef-client.log文件以了解失败的详细信息。

failureCodeEfsMountFailure

  • 它为什么失败了?

    集群配置中定义的 Amazon EFS 卷无法装载。

  • 如何解决?

    如果您定义了现有 Amazon EFS 文件系统,请确保允许集群和文件系统之间的流量。有关更多信息,请参阅 SharedStorage/EfsSettings/FileSystemId

    检查/var/log/chef-client.log文件以了解失败的详细信息。

failureCodeFsxMountFailure

  • 它为什么失败了?

    集群配置中定义的 Amazon FSx 文件系统无法装载。

  • 如何解决?

    如果您定义了现有 Amazon FSx 文件系统,请确保允许集群和文件系统之间的流量。有关更多信息,请参阅 SharedStorage/FsxLustreSettings/FileSystemId

    检查/var/log/chef-client.log文件以了解失败的详细信息。

failureCodeRaidMountFailure

  • 它为什么失败了?

    群集配置中定义的 RAID 卷无法装载。

  • 如何解决?

    检查/var/log/chef-client.log文件以了解失败的详细信息。

failureCodeAmiVersionMismatch

  • 它为什么失败了?

    用于创建自定义 AMI 的Amazon ParallelCluster版本与用于配置集群的Amazon ParallelCluster版本不同。在 CloudFormation 控制台中,查看集群 CloudFormation 堆栈详细信息并查看,HeadNodeWaitCondition以获取有关Amazon ParallelCluster版本和 AMI 的更多详细信息。Status Reason有关更多信息,请参阅查看上的Amazon CloudFormation活动CREATE_FAILED

  • 如何解决?

    确保用于创建自定义 AMI 的Amazon ParallelCluster版本与用于配置集群的Amazon ParallelCluster版本相同。您可以更改自定义 AMI 版本或pcluster CLI 版本以使其相同。

failureCodeInvalidAmi

  • 它为什么失败了?

    自定义 AMI 无效,因为它不是使用构建的Amazon ParallelCluster。

  • 如何解决?

    使用pcluster build-image命令通过将 AMI 设为父映像来创建 AMI。有关更多信息,请参阅pcluster build-image

failureCodeHeadNodeBootstrapFailure为 “设置头节点failureReason失败”。

  • 它为什么失败了?

    无法确定直接原因,需要进一步调查。例如,可能是集群处于受保护状态,这可能是由于未能配置静态计算队列造成的。

  • 如何解决?

    检查/var/log/chef-client.log.文件以了解失败的详细信息。

    注意

    如果您看到RuntimeError异常Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning,则群集处于受保护状态。有关更多信息,请参阅如何调试保护模式

failureCodefailureReasonHeadNodeBootstrapFailure群创建已超时。

  • 它为什么失败了?

    默认情况下,完成集群创建的时间限制为 30 分钟。如果集群创建未在此时间范围内完成,则集群创建将失败并显示超时错误。集群创建可能由于不同的原因而超时。例如,超时失败可能是由于头节点创建失败、网络问题、在头节点中运行的自定义脚本花费太长时间、在计算节点中运行的自定义脚本中的错误或计算节点配置等待时间过长所致。无法确定直接原因,需要进一步调查。

  • 如何解决?

    检查/var/log/cfn-init.log/var/log/chef-client.log文件以了解故障的详细信息。有关Amazon ParallelCluster日志及其获取方式的更多信息,请参阅用于调试的密钥日志检索和保留日志

    您可能会在这些日志中发现以下内容。

    • 看见Waiting for static fleet capacity provisioning快要结束了chef-client.log

      这表示在等待静态节点开机时,集群创建超时。有关更多信息,请参阅在计算节点初始化中看到错误

    • 查看OnNodeConfiguredOnNodeStart头节点脚本最后还没有完成cfn-init.log

      这表示OnNodeConfiguredOnNodeStart自定义脚本花了很长时间才运行并导致了超时错误。检查您的自定义脚本是否存在可能导致其运行很长一段时间的问题。如果您的自定义脚本需要很长时间才能运行,请考虑通过在集群配置文件中添加一DevSettings部分来更改超时限制,如以下示例所示:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • 找不到日志,或者头节点未成功创建

      可能没有成功创建头节点,也找不到日志。在 CloudFormation 控制台中,查看集群堆栈详细信息以查看其他故障详细信息。

failureCodeHeadNodeBootstrapFailure为 “failureReason无法引导头节点”。

  • 它为什么失败了?

    无法确定直接原因,需要进一步调查。

  • 如何解决?

    检查/var/log/cfn-init.log/var/log/chef-client.log文件。

failureCodeResourceCreationFailure

  • 它为什么失败了?

    在集群创建过程中,创建某些资源失败。导致故障的原因多种多样。例如,资源创建失败可能是由容量问题或 IAM 策略配置错误造成的。

  • 如何解决?

    在 CloudFormation 控制台中,查看集群堆栈以检查其他资源创建失败的详细信息。

failureCodeClusterCreationFailure

  • 它为什么失败了?

    无法确定直接原因,需要进一步调查。

  • 如何解决?

    在 CloudFormation 控制台中,查看集群堆栈并查看Status ReasonHeadNodeWaitCondition以查找其他故障详细信息。

    检查/var/log/cfn-init.log/var/log/chef-client.log文件。

WaitCondition timed out...在 CloudFormation 堆栈中看见

有关更多信息,请参阅failureCodefailureReason集HeadNodeBootstrapFailure群创建已超时。

Resource creation cancelled在 CloudFormation 堆栈中看见

有关更多信息,请参阅failureCode 是 ResourceCreationFailure

看到Amazon CloudFormation堆栈中的错误Failed to run cfn-init...或其他错误

查看/var/log/cfn-init.log和以/var/log/chef-client.log获取更多故障详细信息。

看到就chef-client.log结束了INFO: Waiting for static fleet capacity provisioning

这与等待静态节点开机时的集群创建超时有关。有关更多信息,请参阅在计算节点初始化中看到错误

看见Failed to run preinstall or postinstall in cfn-init.log

集群配置HeadNode部分中有OnNodeConfiguredOnNodeStart脚本。该脚本无法正常运行。检查/var/log/cfn-init.log文件以获取自定义脚本错误的详细信息。

This AMI was created with xxx, but is trying to be used with xxx...在 CloudFormation 堆栈中看见

有关更多信息,请参阅failureCode 是 AmiVersionMismatch

This AMI was not baked by Amazon ParallelCluster...在 CloudFormation 堆栈中看见

有关更多信息,请参阅failureCode 是 InvalidAmi

看到pcluster create-cluster命令无法在本地运行

请查看本地文件系统~/.parallelcluster/pcluster-cli.log中的故障详细信息。

其他支持

请按照中的故障排除指南进行操作排查集群部署问题

查看上的 “GitHub 已知问题” 中是否涵盖了您的场景 GitHub。Amazon ParallelCluster

有关其他支持,请参阅其他支持