本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
正在尝试创建集群
使用 3.5.0 及更高Amazon ParallelCluster版本创建集群时,如果--rollback-on-failure
设置为则创建集群失败false
,请使用pcluster describe-cluster CLI 命令获取状态和故障信息。在这种情况下,pcluster describe-cluster
输clusterStatus
出的预期值为CREATE_FAILED
。检查输出中的failures
部分以找到failureCode
和failureReason
。然后,在下一节中,找到匹配项failureCode
以获取更多故障排除帮助。有关更多信息,请参阅pcluster describe-cluster:
在以下部分中,我们建议您检查头节点上的日志,例如/var/log/cfn-init.log
和/var/log/chef-client.log
文件。有关Amazon ParallelCluster日志以及如何查看日志的更多信息,请参阅用于调试的密钥日志和检索和保留日志。
如果您没有failureCode
,请导航到Amazon CloudFormation控制台查看集群堆栈。查看其他资源上是否存在HeadNodeWaitCondition
或故障,以查找其他故障详细信息。Status Reason
有关更多信息,请参阅查看上的Amazon CloudFormation活动CREATE_FAILED:检查头节点上的/var/log/cfn-init.log
和/var/log/chef-client.log
文件。
failureCode
是 OnNodeConfiguredExecutionFailure
-
它为什么失败了?
您在配置中的
OnNodeConfigured
头节点部分提供了自定义脚本来创建集群。但是,自定义脚本无法运行。 -
如何解决?
查看该
/var/log/cfn-init.log
文件以了解有关失败以及如何在自定义脚本中修复问题的更多信息。在此日志快要结束时,您可能会在消息后面看到与OnNodeConfigured
脚本相关的运行Running command runpostinstall
信息。
failureCode
是 OnNodeConfiguredDownloadFailure
-
它为什么失败了?
您在配置中的
OnNodeConfigured
头节点部分提供了自定义脚本来创建集群。但是,自定义脚本下载失败。 -
如何解决?
确保 URL 有效且访问权限配置正确。有关自定义引导脚本配置的更多信息,请参阅,请参阅自定义引导导导导导导操作。
检查
/var/log/cfn-init.log
文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeConfigured
脚本处理(包括下载)相关的运行Running command runpostinstall
信息。
failureCode
是 OnNodeConfiguredFailure
-
它为什么失败了?
您在配置中的
OnNodeConfigured
头节点部分提供了自定义脚本来创建集群。但是,在集群部署中使用自定义脚本失败。无法确定直接原因,需要进一步调查。 -
如何解决?
检查
/var/log/cfn-init.log
文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeConfigured
脚本处理相关的运行Running command runpostinstall
信息。
failureCode
是 OnNodeStartExecutionFailure
-
它为什么失败了?
您在配置中的
OnNodeStart
头节点部分提供了自定义脚本来创建集群。但是,自定义脚本无法运行。 -
如何解决?
查看该
/var/log/cfn-init.log
文件以了解有关失败以及如何在自定义脚本中修复问题的更多信息。在此日志快要结束时,您可能会在消息后面看到与OnNodeStart
脚本相关的运行Running command runpreinstall
信息。
failureCode
是 OnNodeStartDownloadFailure
-
它为什么失败了?
您在配置中的
OnNodeStart
头节点部分提供了自定义脚本来创建集群。但是,自定义脚本下载失败。 -
如何解决?
确保 URL 有效且访问权限配置正确。有关自定义引导脚本配置的更多信息,请参阅,请参阅自定义引导导导导导导操作。
检查
/var/log/cfn-init.log
文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeStart
脚本处理(包括下载)相关的运行Running command runpreinstall
信息。
failureCode
是 OnNodeStartFailure
-
它为什么失败了?
您在配置中的
OnNodeStart
头节点部分提供了用于创建集群的自定义脚本。但是,在集群部署中使用自定义脚本失败。无法确定直接原因,需要进一步调查。 -
如何解决?
检查
/var/log/cfn-init.log
文件。在此日志快要结束时,您可能会在消息之后看到与OnNodeStart
脚本处理相关的运行Running command runpreinstall
信息。
failureCode
是 EbsMountFailure
-
它为什么失败了?
群集配置中定义的 EBS 卷无法装载。
-
如何解决?
检查
/var/log/chef-client.log
文件以了解失败的详细信息。
failureCode
是 EfsMountFailure
-
它为什么失败了?
集群配置中定义的 Amazon EFS 卷无法装载。
-
如何解决?
如果您定义了现有 Amazon EFS 文件系统,请确保允许集群和文件系统之间的流量。有关更多信息,请参阅 SharedStorage/EfsSettings/FileSystemId。
检查
/var/log/chef-client.log
文件以了解失败的详细信息。
failureCode
是 FsxMountFailure
-
它为什么失败了?
集群配置中定义的 Amazon FSx 文件系统无法装载。
-
如何解决?
如果您定义了现有 Amazon FSx 文件系统,请确保允许集群和文件系统之间的流量。有关更多信息,请参阅 SharedStorage/FsxLustreSettings/FileSystemId。
检查
/var/log/chef-client.log
文件以了解失败的详细信息。
failureCode
是 RaidMountFailure
-
它为什么失败了?
群集配置中定义的 RAID 卷无法装载。
-
如何解决?
检查
/var/log/chef-client.log
文件以了解失败的详细信息。
failureCode
是 AmiVersionMismatch
-
它为什么失败了?
用于创建自定义 AMI 的Amazon ParallelCluster版本与用于配置集群的Amazon ParallelCluster版本不同。在 CloudFormation 控制台中,查看集群 CloudFormation 堆栈详细信息并查看,
HeadNodeWaitCondition
以获取有关Amazon ParallelCluster版本和 AMI 的更多详细信息。Status Reason
有关更多信息,请参阅查看上的Amazon CloudFormation活动CREATE_FAILED: -
如何解决?
确保用于创建自定义 AMI 的Amazon ParallelCluster版本与用于配置集群的Amazon ParallelCluster版本相同。您可以更改自定义 AMI 版本或
pcluster
CLI 版本以使其相同。
failureCode
是 InvalidAmi
-
它为什么失败了?
自定义 AMI 无效,因为它不是使用构建的Amazon ParallelCluster。
-
如何解决?
使用
pcluster build-image
命令通过将 AMI 设为父映像来创建 AMI。有关更多信息,请参阅pcluster build-image:
failureCode
HeadNodeBootstrapFailure
为 “设置头节点failureReason
失败”。
-
它为什么失败了?
无法确定直接原因,需要进一步调查。例如,可能是集群处于受保护状态,这可能是由于未能配置静态计算队列造成的。
-
如何解决?
检查
/var/log/chef-client.log.
文件以了解失败的详细信息。注意 如果您看到
RuntimeError
异常Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning
,则群集处于受保护状态。有关更多信息,请参阅如何调试保护模式:
failureCode
failureReason
集HeadNodeBootstrapFailure
群创建已超时。
-
它为什么失败了?
默认情况下,完成集群创建的时间限制为 30 分钟。如果集群创建未在此时间范围内完成,则集群创建将失败并显示超时错误。集群创建可能由于不同的原因而超时。例如,超时失败可能是由于头节点创建失败、网络问题、在头节点中运行的自定义脚本花费太长时间、在计算节点中运行的自定义脚本中的错误或计算节点配置等待时间过长所致。无法确定直接原因,需要进一步调查。
-
如何解决?
检查
/var/log/cfn-init.log
和/var/log/chef-client.log
文件以了解故障的详细信息。有关Amazon ParallelCluster日志及其获取方式的更多信息,请参阅用于调试的密钥日志和检索和保留日志。您可能会在这些日志中发现以下内容。
-
看见
Waiting for static fleet capacity provisioning
快要结束了chef-client.log
这表示在等待静态节点开机时,集群创建超时。有关更多信息,请参阅在计算节点初始化中看到错误:
-
查看
OnNodeConfigured
或OnNodeStart
头节点脚本最后还没有完成cfn-init.log
这表示
OnNodeConfigured
或OnNodeStart
自定义脚本花了很长时间才运行并导致了超时错误。检查您的自定义脚本是否存在可能导致其运行很长一段时间的问题。如果您的自定义脚本需要很长时间才能运行,请考虑通过在集群配置文件中添加一DevSettings
部分来更改超时限制,如以下示例所示:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
-
找不到日志,或者头节点未成功创建
可能没有成功创建头节点,也找不到日志。在 CloudFormation 控制台中,查看集群堆栈详细信息以查看其他故障详细信息。
-
failureCode
HeadNodeBootstrapFailure
为 “failureReason
无法引导头节点”。
-
它为什么失败了?
无法确定直接原因,需要进一步调查。
-
如何解决?
检查
/var/log/cfn-init.log
和/var/log/chef-client.log
文件。
failureCode
是 ResourceCreationFailure
-
它为什么失败了?
在集群创建过程中,创建某些资源失败。导致故障的原因多种多样。例如,资源创建失败可能是由容量问题或 IAM 策略配置错误造成的。
-
如何解决?
在 CloudFormation 控制台中,查看集群堆栈以检查其他资源创建失败的详细信息。
failureCode
是 ClusterCreationFailure
-
它为什么失败了?
无法确定直接原因,需要进一步调查。
-
如何解决?
在 CloudFormation 控制台中,查看集群堆栈并查看
Status Reason
HeadNodeWaitCondition
以查找其他故障详细信息。检查
/var/log/cfn-init.log
和/var/log/chef-client.log
文件。
WaitCondition timed out...
在 CloudFormation 堆栈中看见
有关更多信息,请参阅failureCodefailureReason集HeadNodeBootstrapFailure群创建已超时。:
Resource creation cancelled
在 CloudFormation 堆栈中看见
有关更多信息,请参阅failureCode 是 ResourceCreationFailure:
看到Amazon CloudFormation堆栈中的错误Failed to run cfn-init...
或其他错误
查看/var/log/cfn-init.log
和以/var/log/chef-client.log
获取更多故障详细信息。
看到就chef-client.log
结束了INFO: Waiting for static fleet capacity provisioning
这与等待静态节点开机时的集群创建超时有关。有关更多信息,请参阅在计算节点初始化中看到错误:
看见Failed to run preinstall or postinstall in cfn-init.log
集群配置HeadNode
部分中有OnNodeConfigured
或OnNodeStart
脚本。该脚本无法正常运行。检查/var/log/cfn-init.log
文件以获取自定义脚本错误的详细信息。
This AMI was created with xxx, but is trying to be used with xxx...
在 CloudFormation 堆栈中看见
有关更多信息,请参阅failureCode 是 AmiVersionMismatch:
This AMI was not baked by Amazon ParallelCluster...
在 CloudFormation 堆栈中看见
有关更多信息,请参阅failureCode 是 InvalidAmi:
看到pcluster create-cluster
命令无法在本地运行
请查看本地文件系统~/.parallelcluster/pcluster-cli.log
中的故障详细信息。
其他支持
请按照中的故障排除指南进行操作排查集群部署问题。
查看上的 “GitHub 已知问题
有关其他支持,请参阅其他支持。