尝试更新集群 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

尝试更新集群

以下部分提供了可能的故障排除解决方案,以解决您在尝试更新集群时可能出现的问题。

pcluster update-cluster 命令无法在本地运行

检查本地文件系统中的 ~/.parallelcluster/pcluster-cli.log 以查看失败详细信息。

使用 pcluster describe-cluster 命令时看到 clusterStatusUPDATE_FAILED

如果集群堆栈更新回滚,请检查 /var/log/chef-client.logs 文件以查看错误详细信息。

查看在 “GitHub 已知问题” 中是否提到了您的问题 GitHub。 Amazon ParallelCluster

集群更新超时

这可能是与 cfn-hup 未运行有关的问题。如果 cfn-hup 进程守护程序因外部原因终止,它不会自动重启。如果cfn-hup未运行,则在集群更新期间, CloudFormation 堆栈会按预期启动更新过程,但更新过程未在头节点上激活,堆栈部署最终会超时。有关更多信息,请参阅排查 cfn-hup 未运行时的集群更新超时问题以排除故障并从问题中恢复。