排除cfn-hup未运行时的集群更新超时故障 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

排除cfn-hup未运行时的集群更新超时故障

cfn-hup帮助程序是一个后台程序,用于检测资源元数据中的更改,当检测到更改时,它会运行用户指定的操作。通过这种方式,您可以通过UpdateStack API 操作对您正在运行的 Amazon EC2 实例进行配置更新。

目前,cfn-hup守护程序由启动supervisord。但是启动后,该cfn-hup过程就脱离了supervisord控制。如果cfn-hup恶魔被外部角色杀死,它不会自动重启。如果cfn-hup未运行,则在集群更新期间, CloudFormation 堆栈会按预期启动更新过程,但更新过程未在头节点上激活,堆栈最终会进入超时状态。从集群日志中/var/log/chef-client,你可以看到更新配方从未被调用。

如果出现故障cfn-hup,请检查并重新启动

  1. 在头节点上,检查是否cfn-hup正在运行:

    $ ps aux | grep cfn-hup
  2. 在头节点/var/log/supervisord.log上检查cfn-hup日志/var/log/cfn-hup.log

  3. 如果cfn-hup未运行,请尝试通过运行以下命令重新启动它:

    $ sudo /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/supervisorctl start cfn-hup