故障排除高可用性问题 - AWS Storage Gateway
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

故障排除高可用性问题

如果您遇到可用性问题,则可在下面查找有关要采取的操作的信息。

健康通知

在 VMware vSphere HA 上运行您的网关时,所有网关都会向配置的 Amazon CloudWatch 日志组生成以下运行状况通知。这些通知将转至名为 AvailabilityMonitor 的日志流中。

通知 重新启动。

在重新启动网关 VM 时,您会收到重启通知。您可以使用 VM 管理程序管理控制台或 Storage Gateway 控制台重新启动网关 VM。您也可以在网关维护周期内使用网关软件来重新启动。

采取的操作

如果重启时间在网关的已配置维护开始时间的 10 分钟内,则此情况可能是正常的,并不指示任何问题。如果重启发生在维护时段之外,请检查是否已手动重新启动网关。

通知 硬重启

当网关 VM 意外重启时,您会收到 HardReboot 通知。此类重启可能是因断电、硬件故障或其他事件导致的。对于 VMware 网关,通过 vSphere High Availability 应用程序监控进行重置会触发此事件。

采取的操作

当网关在此类环境中运行时,请检查是否存在 HealthCheckFailure 通知并查看 VM 的 VMware 事件日志。

通知 HealthCheckFailure

对于 VMware vSphere HA 上的网关,当运行状况检查失败并请求重新启动 VM 时,您会收到 HealthCheckFailure 通知。此事件也会在测试期间发生来监控可用性(由 AvailabilityMonitorTest 通知指示)。在此情况下,应会有 HealthCheckFailure 通知。

注意

此通知仅适用于 VMware 网关。

采取的操作

如果此事件重复发生,但没有 AvailabilityMonitorTest 通知,请检查您的 VM 基础设施是否存在问题(存储、内存等)。如果您需要其他帮助,请联系 AWS Support.

通知 可用性监视器测试

对于VmwareVsphereHA上的网关,您可以获得 AvailabilityMonitorTest 通知 运行测试可用性和应用监控 Vmware中的系统。

Metrics

AvailabilityNotifications 指标适用于所有网关。此指标是网关生成的与可用性相关的运行状况通知数。使用 Sum 统计数据可观察网关是否遇到了任何与可用性相关的事件。有关事件的详细信息,请检查配置的 CloudWatch 日志组。