Amazon FSx 文件网关不再向新客户开放。 FSx File Gateway 的现有客户可以继续正常使用该服务。有关与 FSx 文件网关类似的功能,请访问此博客文章
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
故障排除:文件网关问题
您可以将文件网关配置为将日志条目写入 Amazon CloudWatch 日志组。如果这样做,您将收到有关网关运行状况以及网关遇到的任何错误的通知。您可以在 CloudWatch 日志中找到有关这些错误和运行状况通知的信息。
在以下部分中,您可以找到相关信息来帮助您理解每个错误的原因、运行状况通知以及如何解决问题。
主题
错误: FileMissing
该FileMissing
错误与ObjectMissing
错误类似,解决该错误的步骤也相同。当指定文件网关以外的写入器从 Amazon 中删除指定文件时,可能会FileMissing
出现错误 FSx。任何后续上传到亚马逊 FSx 或从亚马逊检索该对象都将失 FSx 败。
要解决 FileMissing 错误
-
将文件的最新副本保存到 SMB 客户端的本地文件系统(步骤 3 中需要此文件副本)。
-
使用 SMB 客户端从文件网关中删除该文件。
-
FSx 使用 SMB 客户端复制您在步骤 1 Amazon 中保存的文件的最新版本。通过您的文件网关执行此操作。
错误: FsxFileSystemAuthenticationFailure
当附加文件系统时提供的凭据过期或其权限已被撤销时,您可能会收到FsxFileSystemAuthenticationFailure
错误消息。
要解决 FsxFileSystemAuthenticationFailure 错误
-
确保在连接 Amazon FSx 文件系统时提供的凭证仍然有效。
-
确保用户拥有附加 Amazon FSx for Windows 文件服务器文件系统中所述的所有必要权限。
错误: FsxFileSystemConnectionFailure
当无法从网关计算机访问 Amazon FSx 服务器时,您可能会FsxFileSystemConnectionFailure
遇到错误。
要解决 FsxFileSystemConnectionFailure 错误
-
确保所有防火墙和 VPC 规则都允许在网关计算机和 Amazon FSx 服务器之间建立连接。
-
确保 Amazon FSx 服务器正在运行。
错误: FsxFileSystemFull
当 Amazon FSx 文件系统中没有足够的可用磁盘空间时,可能会FsxFileSystemFull
出现错误。
要解决 FsxFileSystemFull 错误
-
增加 Amazon FSx 文件系统的存储空间。
错误: GatewayClockOutOfSync
当网关检测到本地系统时间与 Amazon Storage Gateway 服务器报告的时间之间有 5 分钟或更长时间的差异时,您可能会收到GatewayClockOutOfSync
错误消息。时钟同步问题可能会对网关和之间的连接产生负面影响 Amazon。如果网关时钟不同步,NFS 和 SMB 连接可能会出现 I/O 错误,并且 SMB 用户可能会遇到身份验证错误。
要解决 GatewayClockOutOfSync 错误
-
检查网关和 NTP 服务器之间的网络配置。有关同步网关 VM 时间和更新 NTP 服务器配置的更多信息,请参阅为网关网络时间协议 (NTP) 服务器。
错误: InvalidFileState
当指定网关以外的写入器修改指定文件共享中的指定文件时,可能会InvalidFileState
出现错误。因此,网关上文件的状态与其在 Amazon 中的状态不匹配 FSx。随后从 Ama FSx zon 上传或检索文件都可能失败。
要解决 InvalidFileState 错误
-
将文件的最新副本保存到 SMB 客户端的本地文件系统(在步骤 4 中需要复制此文件)。如果 Amazon 中的文件版本 FSx 是最新版本,请下载该版本。为此,您可以使用任何 SMB 客户端直接访问 Amazon FSx 共享。
-
FSx 直接在 Amazon 中删除该文件。
-
使用 SMB 客户端从网关中删除该文件。
-
使用您的 SMB 客户端,通过文件网关将您在步骤 1 中保存的文件的最新版本复制到 Amazon FSx。
错误: ObjectMissing
当指定文件网关以外的写入器从 Amazon 中删除指定文件时,可能会ObjectMissing
出现错误 FSx。任何后续上传到亚马逊 FSx或从亚马逊检索该对象都将失 FSx 败。
要解决 ObjectMissing 错误
-
将文件的最新副本保存到 SMB 客户端的本地文件系统(步骤 3 中需要此文件副本)。
-
使用 SMB 客户端从文件网关中删除该文件。
-
FSx 使用 SMB 客户端复制您在步骤 1 Amazon 中保存的文件的最新版本。通过您的文件网关执行此操作。
错误: DroppedNotifications
如果网关根磁盘上的可用存储空间小于 1 GB,或者在 1 分钟间隔内生成的运行状况通知超过 100 个,则可能会看到DroppedNotifications
错误而不是其他预期类型的 CloudWatch 日志条目。在这种情况下,作为预防措施,网关会停止生成详细的 CloudWatch 日志通知。
要解决 DroppedNotifications 错误
-
在 Storage Gateway 控制台中查看您的网关的 “监控” 选项卡上的
Root Disk Usage
指标,以确定可用的根磁盘空间是否不足。 -
如果可用空间小于 1 GB,请增加网关根存储磁盘的大小。有关说明,请参阅虚拟机管理程序的文档。
要增加 Amazon EC2 网关的根磁盘大小,请参阅亚马逊弹性计算云用户指南中的请求修改 EBS 卷。
注意
无法增加 Amazon Storage Gateway 硬件设备的根磁盘大小。
-
重新启动您的网关。
通知: HardReboot
当网关 VM 意外重启时,您会收到 HardReboot
通知。此类重启可能是因断电、硬件故障或其他事件导致的。对于 VMware 网关,vSphere 高可用性应用程序监控的重置可能会导致此事件。
当您的网关在这样的环境中运行时,请检查HealthCheckFailure
通知是否存在,并查阅虚拟机 VMware 的事件日志。
通知:重启
在重新启动网关 VM 时,您会收到重启通知。您可以使用 VM 管理程序管理控制台或 Storage Gateway 控制台重新启动网关 VM。您也可以在网关维护周期内使用网关软件来重新启动。
如果重启时间在网关的已配置维护开始时间的 10 分钟内,则此重启可能是正常的,并不指示任何问题。如果重启发生在维护时段之外,请检查是否已手动重新启动网关。
疑难解答:活动目录域问题
FSx 文件网关不会为 Active Directory 域问题生成特定的日志消息。如果您在将网关加入 Active Directory 域时遇到问题,请执行以下操作:
-
确认网关没有尝试使用只读域控制器 (RODC) 加入域。
-
确认网关已配置为使用正确的 DNS 服务器。
例如,如果您正在尝试将 Amazon EC2 网关实例加入 Amazon托管的 Active Directory,请验证为您的 EC2 VPC 设置的 DHCP 选项是否指定了 Amazon托管的 Active Directory DNS 服务器。
您通过 VPC DHCP 选项集配置的 DNS 服务器将提供给 VPC 中的所有 EC2 实例。如果要为单个网关指定 DNS 服务器,则可以使用该网关的 EC2 本地控制台进行指定。
对于本地网关,您可以使用虚拟机本地控制台指定 DNS 服务器。
-
通过在网关的本地控制台的命令提示符下运行以下命令来验证网关网络连接。将突出显示的变量替换为您部署中的实际域名和 IP 地址。
dig -d
ExampleDomainName
ncport -dExampleDomainControllerIPAddress
-p 445 ncport -dExampleDomainControllerIPAddress
-p 389 -
确认您的 Active Directory 服务帐户具有必要的权限。有关更多信息,请参阅 A 活动目录服务帐户权限要求。
-
验证网关是否加入了正确的组织单位 (OU)。
加入域会在默认计算机容器(不是 OU)中创建一个 Active Directory 计算机帐户,使用网关的网关 ID 作为帐户名(例如,SGW-1234ADE)。无法自定义此账户的名称。
如果您的 Active Directory 环境为新的计算机对象指定了 OU,则在加入域时必须指定该 OU。
如果您在尝试加入指定的 OU 时遇到访问被拒绝的错误,请咨询您的 Active Directory 域管理员。管理员可能需要预先设置网关的计算机帐户,然后才能加入该域。有关更多信息,请参阅如何解决将 Storage Gateway 文件网关加入域以进行 Microsoft Active Directory 身份验证时遇到的问题?
。 -
通过在网关的本地控制台的命令提示符下运行以下命令,验证网关的主机名是否可以在 DNS 中解析。将突出显示的变量替换为网关的实际主机名。
dig -d
ExampleHostName
-r A如果您为网关配置了自定义主机名,则必须手动添加指向其 IP 地址的 DNS A 记录。
-
验证网关和域控制器之间的网络延迟是否相当低。如果网关在 20 秒内没有收到来自域控制器的响应,则加入域的查询可能会超时。
如果您使用 JoinDomainCLI 命令将网关加入域,则可以添加该
--timeout-in-seconds
标志将超时时间延长到最长 3,600 秒。 -
确认您用于加入网关的 Active Directory 用户是否具有加入网关所需的权限。
疑难解答:使用 CloudWatch指标
您可以在下面找到有关使用亚马逊 CloudWatch指标和 Storage Gateway 来解决问题的操作的信息。
主题
浏览目录时,您的网关反应缓慢
如果您的 File Gateway 在运行ls命令或浏览目录时反应缓慢,请检查IndexFetch
和IndexEviction
CloudWatch 指标:
-
如果您在运行
ls
命令或浏览目录时该IndexFetch
指标大于 0,则您的文件网关启动时没有有关受影响目录内容的信息,因此必须访问FSx 适用于 Windows 文件服务器的 。后续列出该目录内容的工作应更快地进行。 -
如果该
IndexEviction
指标大于 0,则表示您的文件网关已达到其在缓存中可以管理的内容上限。在这种情况下,您的文件网关必须从最近访问最少的目录中释放一些存储空间才能列出新目录。如果这种情况经常发生并且会影响性能,请与联系 Amazon Web Services 支持。与相 Amazon Web Services 支持 关 Amazon FSx 文件系统的内容进行讨论,并根据您的用例提出提高性能的建议。
您的网关没有响应
如果您的文件网关没有响应,请执行以下操作:
-
如果存在最近重启或软件更新,请检查
IOWaitPercent
指标。此指标显示磁盘 I/O 请求未完成时 CPU 处于空闲状态的时间百分比。在某些情况下,此值可能会很高(10 或更高),并且可能会在服务器重启或更新后增大。在这些情况下,文件网关在将索引缓存重建到 RAM 时可能会因根磁盘速度慢而受到瓶颈。您可以通过为根磁盘使用更快的物理磁盘来解决此问题。 -
如果该
MemUsedBytes
指标等于或几乎与该MemTotalBytes
指标相同,则说明您的文件网关可用内存已用完。确保您的文件网关至少具有所需的最低 RAM。如果已经有,请考虑根据您的工作负载和用例向文件网关添加更多 RAM。如果文件共享是 SMB,则问题可能也是因连接到文件共享的 SMB 客户端的数量导致的。要查看在任何给定时间连接的客户端数量,请检查
SMBV(1/2/3)Sessions
指标。如果连接了许多客户端,则可能需要向文件网关添加更多 RAM。
您在 Amazon 文件系统中看不到 FSx 文件
如果您发现网关上的文件未反映在 Amazon FSx 文件系统中,请检查该FilesFailingUpload
指标。如果指标报告某些文件上传失败,请查看您的健康通知。文件上传失败时,网关会生成一份健康通知,其中包含有关该问题的更多详细信息。
您在 Amazon FSx 文件系统中看不到较旧的快照
文件网关上的某些 FSx 文件操作(例如顶级文件夹重命名或权限更改)可能会导致多个文件操作,从而导致您 FSx 的 Windows 文件服务器文件系统 I/O 负载过高。如果您的文件系统没有足够的性能资源来处理您的工作负载,则文件系统可能会删除卷影副本,因为它优先考虑持续的可用性 I/O 而不是历史卷影副本的保留。
在 Amazon FSx 控制台中,查看监控和性能页面,查看您的文件系统是否配置不足。如果是,您可以切换到 SSD 存储、增加吞吐容量或增加 SSD IOPS 来处理您的工作负载。
您的网关向 Amazon 传输数据速度很慢 FSx
如果您的文件网关向 Amazon FSx for Windows 文件服务器传输数据速度很慢,请执行以下操作:
-
如果
CachePercentDirty
指标等于 80 或更高,则您的文件网关向磁盘写入数据的速度快于将数据上传到 Amazon for Windows 文件服务器 FSx 的速度。可以考虑增加从文件网关上传的带宽、添加一个或多个缓存磁盘、减慢客户端写入速度,或者增加关联的 Amazon for Windows 文件服务器 FSx 的吞吐容量。 -
如果
CachePercentDirty
指标较低,请检查该IoWaitPercent
指标。如果大IoWaitPercent
于 10,则您的文件网关可能会受到本地缓存磁盘速度的瓶颈。我们建议使用本地固态硬盘 (SSD) 磁盘作为缓存,最好是 NVM Express (NVMe)。如果此类磁盘不可用,请尝试使用来自单独物理磁盘的多个缓存磁盘来提高性能。
您的网关备份任务失败或写入网关时出现错误
如果您的文件网关备份任务失败或写入文件网关时出现错误,请执行以下操作:
-
如果该
CachePercentDirty
指标为 90% 或更高,则您的文件网关将无法接受新的磁盘写入,因为缓存磁盘上没有足够的可用空间。要查看您的文件网关上传到 for Windows 文件服务器FSx 的速度有多快,请查看该CloudBytesUploaded
指标。将该指标与该WriteBytes
指标进行比较,该指标显示了客户端向您的文件网关写入文件的速度。如果 SMB 客户端写入您的文件网关的速度超过了上传 FSx for Windows 文件服务器的速度,请添加更多的缓存磁盘以至少满足备份任务的大小。或者,增加上传带宽。 -
如果备份作业等大型文件副本失败,但
CachePercentDirty
指标低于 80%,则您的文件网关可能已达到客户端会话超时。对于 SMB,您可以使用 PowerShell 命令Set-SmbClientConfiguration -SessionTimeout 300
延长此超时时间。运行此命令会将超时设置为 300 秒。