故障排除文件网关问题 - AWS Storage Gateway
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

故障排除文件网关问题

您可以使用 Amazon CloudWatch 运行VmwareVsphereHighAvailability(HA)时的日志组。如果操作,您会收到关于文件网关运行状况的通知,以及文件网关遇到的错误。您可以在 CloudWatch Logs 中查找有关这些错误和运行状况通知的信息。

在以下部分中,您可以找到相关信息来帮助您理解每个错误的原因、运行状况通知以及如何解决问题。

错误 无障碍淋浴间

当对象从 Amazon S3 标准存储类中移出时,您会收到 InaccessibleStorageClass 错误。

在这里,在尝试将指定对象上传到S3存储区或从S3存储区读取对象时,文件网关会遇到错误。出现此错误时,通常对象已移出 Amazon S3 Glacier,并且位于或 S3 Glacier 或 S3 Glacier Deep Archive 存储类中。

解决无障碍存储器错误

  • 将对象从 S3 Glacier 或 S3 Glacier 深度归档存储类回到S3。

    如果将对象移动到S3存储区以修复上传错误,则最终上传该文件。如果将对象移动到S3存储区以修复读取错误,文件网关SMB或NFS客户端可以读取文件。

错误 S3Access已拒绝

您可以获得 S3AccessDenied 文件共享错误 Amazon S3 存储桶访问 AWS Identity and Access Management (IAM)角色。在这种情况下,S3桶访问 IAM 指定的角色 roleArn 在错误中,不允许操作参与。由于对象的权限在 Amazon S3 前缀。

解决S3AccessRejected错误

  • 修改 Amazon S3 连接到 roleArn 在文件网关运行状况日志中,允许 Amazon S3 操作。请确保访问策略允许针对导致错误的操作的权限。还允许对日志中指定的目录进行权限 prefix。有关 Amazon S3 权限,请参阅 指定策略中的权限Amazon Simple Storage Service 开发人员指南.

    这些操作可能会导致出现 S3AccessDenied 错误。

    • S3HeadObject

    • S3GetObject

    • S3ListObjects

    • S3DeleteObject

    • S3PutObject

错误 InValidobjectstate

您可以获得 InvalidObjectState 当指定文件网关以外的编写器修改指定的S3存储区中的指定文件时出错。因此,文件网关的文件状态与其状态不匹配 Amazon S3. 任何后续文件上传到 Amazon S3 或从文件重试 Amazon S3 失败。

解决inValidobjectState错误

如果修改文件的操作是 S3UploadS3GetObject,执行以下操作:

  1. 将文件的最新副本保存到SMB或NFS客户端的本地文件系统(在步骤4中需要此文件拷贝)。如果文件的版本为 Amazon S3 最新版本,下载该版本。您可以使用 AWS 管理控制台或 AWS CLI 执行此操作。

  2. 删除文件 Amazon S3 使用 AWS 管理控制台 或 AWS CLI.

  3. 使用SMB或NFS客户端从文件网关删除文件。

  4. 复制您在步骤1中保存的最新文件版本 Amazon S3 使用SMB或NFS客户端。通过文件网关执行此操作。

错误 目标缺失

您可以获得 ObjectMissing 当指定文件网关以外的编写器删除S3存储区中指定的文件时出错。任何后续上传至 Amazon S3 或从 Amazon S3 对象失败。

解决目标缺失错误

如果修改文件的操作是 S3UploadS3GetObject,执行以下操作:

  1. 将文件的最新副本保存到SMB或NFS客户端的本地文件系统(在步骤3中需要此文件拷贝)。

  2. 使用SMB或NFS客户端从文件网关删除文件。

  3. 复制您在步骤1中保存的最新文件版本 使用SMB或NFS客户端。通过文件网关执行此操作。

通知 重新启动。

在重新启动网关 VM 时,您会收到重启通知。您可以使用 VM 管理程序管理控制台或 Storage Gateway 控制台重新启动网关 VM。您也可以在网关维护周期内使用网关软件来重新启动。

如果重启时间在网关的已配置维护开始时间的 10 分钟内,则此重启可能是正常的,并不指示任何问题。如果重启发生在维护时段之外,请检查是否已手动重新启动网关。

通知 硬重启

当网关 VM 意外重启时,您会收到 HardReboot 通知。此类重启可能是因断电、硬件故障或其他事件导致的。对于 VMware 网关,通过 vSphere High Availability 应用程序监控进行重置会触发此事件。

当网关在此类环境中运行时,请检查是否存在 HealthCheckFailure 通知并查看 VM 的 VMware 事件日志。

通知 HealthCheckFailure

对于 VMware vSphere HA 上的网关,当运行状况检查失败并请求重新启动 VM 时,您会收到 HealthCheckFailure 通知。此事件也会在测试期间发生来监控可用性(由 AvailabilityMonitorTest 通知指示)。在此情况下,应会有 HealthCheckFailure 通知。

注意

此通知仅适用于 VMware 网关。

如果此事件重复发生,但没有 AvailabilityMonitorTest 通知,请检查您的 VM 基础设施是否存在问题(存储、内存等)。如果您需要其他帮助,请联系 AWS Support.

通知 可用性监视器测试

您获得 AvailabilityMonitorTest 通知 运行测试可用性和应用监控 在VmwareVsphereHA平台上运行的网关上的系统。

错误 RoletrustrelationShip无效

当您在 IAM 文件共享的角色配置错误 IAM 信任关系(即, IAM 角色不信任 Storage Gateway 名为 storagegateway.amazonaws.com)。因此,文件网关将无法获取凭据,以便在备份文件共享的S3存储区上执行任何操作。

要解决RoletruStrelationShip无效错误

故障排除 CloudWatch 度量

您可以在下面找到有关将 Amazon CloudWatch 指标用于 Storage Gateway 来解决问题时需执行的操作的信息。

浏览目录时,网关会缓慢反应

如果您的文件网关在运行 ls 命令或浏览目录,检查 IndexFetchIndexEviction CloudWatch 度量:

  • 如果 IndexFetch 当您运行 ls 命令或浏览目录,您的文件网关已启动,没有关于受影响目录内容的信息且必须访问 Amazon S3. 后续列出该目录内容的工作应更快地进行。

  • 如果 IndexEviction 度量大于0,表示您的文件网关已达到该时间内的缓存中可管理的内容的限制。在这种情况下,文件网关必须从最近访问的目录释放一些存储空间,以列出新目录。如果经常发生这种情况,并且存在性能影响,请联系 AWS Support. 与 AWS Support 相关S3桶的内容,以及根据使用情形提高性能的建议。

您的网关没有响应

如果文件网关没有响应,请执行以下操作:

  • 如果存在最近重启或软件更新,请检查 IOWaitPercent 指标。此指标显示当存在未完成磁盘 I/O 请求时 CPU 处于空闲状态的时间百分比。在某些情况下,此值可能会很高(10 或更高),并且可能会在服务器重启或更新后增大。在这些情况下,您的文件网关可能会被缓慢的根磁盘装瓶,因为它将索引缓存重新构建到RAM。您可以通过为根磁盘使用更快的物理磁盘来解决此问题。

  • 如果 MemUsedBytes 度量标准处于或几乎与 MemTotalBytes 度量,您的文件网关正在从可用RAM中运行。确保文件网关至少有所需的RAM。如果已经存在,请考虑根据工作负载和使用情形,将更多RAM添加到文件网关。

    如果文件共享是 SMB,则问题可能也是因连接到文件共享的 SMB 客户端的数量导致的。要查看在任何给定时间连接的客户端数量,请检查 SMBV(1/2/3)Sessions 指标。如果已连接许多客户端,您可能需要将更多RAM添加到文件网关。

您的网关将数据传输到 Amazon S3

如果文件网关正在缓慢传输数据到 Amazon S3,执行以下操作:

  • 如果 CachePercentDirty 度量标准为80或更高,您的文件网关的写入数据速度比可以将数据上传到 Amazon S3. 考虑增加从文件网关上传的带宽,添加一个或多个缓存磁盘,或放慢客户端写入速度。

  • 如果 CachePercentDirty 度量为低,检查 IoWaitPercent 度量。IFIFIF IoWaitPercent 大于10,您的文件网关可能会按本地缓存磁盘的速度进行瓶颈。我们建议您为缓存使用本地固态驱动器 (SSD) 磁盘,最好是 NVM Express (NVMe)。如果此类磁盘不可用,请尝试使用来自单独物理磁盘的多个缓存磁盘来提高性能。

您的网关备份作业失败或写入网关时出现错误

如果文件网关备份作业失败或写入文件网关时出现错误,请执行以下操作:

  • 如果 CachePercentDirty 度量值为90%或更高,您的文件网关不能接受磁盘的新写入,因为缓存磁盘上没有足够的可用空间。查看文件网关上传到 Amazon S3,查看 CloudBytesUploaded 度量。将该度量标准与 WriteBytes 度量,显示客户端将文件写入文件网关的速度。如果文件网关的写入速度比上传到 Amazon S3,添加更多缓存磁盘以至少覆盖备份作业的大小。或者,增加上传带宽。

  • 如果备份作业失败,但是 CachePercentDirty 度量小于80%,您的文件网关可能会导致客户端会话超时。对于SMB,您可以使用powershell命令增加此超时 Set-SmbClientConfiguration -SessionTimeout 300。运行此命令将超时设置为300秒。对于 NFS,请确保使用硬装载而非软装载来装载客户端。