本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
排除cfn-hup
未运行时的集群更新超时故障
cfn-hup
帮助程序是一个后台程序,用于检测资源元数据中的更改,当检测到更改时,它会运行用户指定的操作。通过这种方式,您可以通过UpdateStack
API 操作对您正在运行的 Amazon EC2 实例进行配置更新。
目前,cfn-hup
守护程序由启动supervisord
。但是启动后,该cfn-hup
过程就脱离了supervisord
控制。如果cfn-hup
恶魔被外部角色杀死,它不会自动重启。如果cfn-hup
未运行,则在集群更新期间, CloudFormation 堆栈会按预期启动更新过程,但更新过程未在头节点上激活,堆栈最终会进入超时状态。从集群日志中/var/log/chef-client
,你可以看到更新配方从未被调用。
如果出现故障cfn-hup
,请检查并重新启动
-
在头节点上,检查是否
cfn-hup
正在运行:$
ps aux | grep cfn-hup
-
在头节点
/var/log/supervisord.log
上检查cfn-hup
日志/var/log/cfn-hup.log
。 -
如果
cfn-hup
未运行,请尝试通过运行以下命令重新启动它:$
sudo /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/supervisorctl start cfn-hup