故障后分析和重置 - SAP HANA 开启 Amazon
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

故障后分析和重置

每次失败后都必须进行审查,以了解故障的根源以及集群的反应。在大多数情况下,集群可以防止应用程序中断。但是,通常需要手动操作才能将群集重置为保护状态,以防后续出现任何故障。

检查日志

  • 要对群集问题进行故障排除,请使用 journalctl 检查起搏器和 corosync 日志:

    # journalctl -u pacemaker -u corosync --since "1 hour ago"
    • --since用于指定时间段(例如,“2 小时前”、“今天”)

    • 添加-f以实时关注日志

    • 与 grep 结合使用可进行特定搜索

  • 系统消息和资源代理活动可以在中找到/var/log/messages

  • 有关 HANA 特有的问题,请查看 HANA 跟踪目录。当以 <sid>adm 身份登录时,可以使用 “cdtrace” 进行访问。另请查阅 <tenantdb>HANA 跟踪目录中的 DB_ 目录。

清理 crm 状态

如果使用该crm status命令报告了失败的操作,并且已经对其进行了调查,则可以使用以下命令清除报告。

# crm resource cleanup <resource> <hostname>

重启出现故障的节点或起搏器

建议不要自动重启出现故障(或已屏蔽)的节点。它使操作员有机会调查故障,并确保集群不会对资源状态做出假设。

您需要根据自己的方法重启实例或 pacemaker 服务。

进一步分析

对于特定于群集的问题,请使用生成hb_report对所有节点上的群集组件的有针对性的分析:

# hb_report -f "YYYY-MM-DD HH:MM:SS" -t "YYYY-MM-DD HH:MM:SS" /tmp/hb_report

要快速分析最近发生的事件,可以使用:

# crm history events # crm history log
  • hb_reportcrm history命令都需要在节点之间使用无密码 SSH

  • 有关更多信息,请参阅 SUSE 文档—— 使用 hb_report for SLES HA E