高可用性问题排查 - AWS Storage Gateway
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

Amazon S3 文件网关文档已移至什么是 Amazon S3 文件网关

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

高可用性问题排查

如果您遇到可用性问题,则可在下面查找有关要采取的操作的信息。

运行 Health 通知

在 VMware vSphere HA 上运行您的网关时,所有网关都会向配置的 Amazon CloudWatch 日志组生成以下运行状况通知。这些通知将转至名为 AvailabilityMonitor 的日志流中。

:Notification 重启

在重新启动网关 VM 时,您会收到重启通知。您可以使用 VM 管理程序管理控制台或 Storage Gateway 控制台重新启动网关 VM。您也可以在网关维护周期内使用网关软件来重新启动。

措施

如果重启时间在网关的已配置维护开始时间的 10 分钟内,则此情况可能是正常的,并不指示任何问题。如果重启发生在维护时段之外,请检查是否已手动重新启动网关。

:Notification HardReboot

当网关 VM 意外重启时,您会收到 HardReboot 通知。此类重启可能是因断电、硬件故障或其他事件导致的。对于 VMware 网关,通过 vSphere High Availability 应用程序监控进行重置会触发此事件。

措施

当网关在此类环境中运行时,请检查是否存在 HealthCheckFailure 通知并查看 VM 的 VMware 事件日志。

:Notification HealthCheckFailure

对于 VMware vSphere HA 上的网关,当运行状况检查失败并请求重新启动 VM 时,您会收到 HealthCheckFailure 通知。此事件也会在测试期间发生来监控可用性(由 AvailabilityMonitorTest 通知指示)。在此情况下,应会有 HealthCheckFailure 通知。

注意

此通知仅适用于 VMware 网关。

措施

如果此事件重复发生,但没有 AvailabilityMonitorTest 通知,请检查您的 VM 基础设施是否存在问题(存储、内存等)。如果您需要其他帮助,请联系AWS Support。

:Notification AvailabilityMonitorTest

对于 VMware vSphere HA 上的网关,您可以获取AvailabilityMonitorTest通知,当您运行测试可用性和应用程序监控系统。

Metrics

AvailabilityNotifications 指标适用于所有网关。此指标是网关生成的与可用性相关的运行状况通知数。使用 Sum 统计数据可观察网关是否遇到了任何与可用性相关的事件。有关事件的详细信息,请检查配置的 CloudWatch 日志组。