本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
故障后分析和重置
每次失败后都必须进行审查,以了解故障的根源以及集群的反应。在大多数情况下,集群可以防止应用程序中断。但是,通常需要手动操作才能将群集重置为保护状态,以防后续出现任何故障。
检查日志
-
要对群集问题进行故障排除,请使用 journalctl 检查起搏器和 corosync 日志:
# journalctl -u pacemaker -u corosync --since "1 hour ago"
-
--since
用于指定时间段(例如,“2 小时前”、“今天”) -
添加
-f
以实时关注日志 -
与 grep 结合使用可进行特定搜索
-
-
系统消息和资源代理活动可以在中找到
/var/log/messages
。 -
有关 HANA 特有的问题,请查看 HANA 跟踪目录。当以 <sid>adm 身份登录时,可以使用 “cdtrace” 进行访问。另请查阅 <tenantdb>HANA 跟踪目录中的 DB_ 目录。
清理 crm 状态
如果使用该crm status
命令报告了失败的操作,并且已经对其进行了调查,则可以使用以下命令清除报告。
# crm resource cleanup <resource> <hostname>
重启出现故障的节点或起搏器
建议不要自动重启出现故障(或已屏蔽)的节点。它使操作员有机会调查故障,并确保集群不会对资源状态做出假设。
您需要根据自己的方法重启实例或 pacemaker 服务。
进一步分析
对于特定于群集的问题,请使用生成hb_report
对所有节点上的群集组件的有针对性的分析:
# hb_report -f "YYYY-MM-DD HH:MM:SS" -t "YYYY-MM-DD HH:MM:SS" /tmp/hb_report
要快速分析最近发生的事件,可以使用:
# crm history events # crm history log
-
hb_report
和crm history
命令都需要在节点之间使用无密码 SSH -
有关更多信息,请参阅 SUSE 文档—— 使用 hb_report for SLES HA
E