文件网关问题疑难解答 - AWS Storage Gateway
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文件网关问题疑难解答

您可以使用配置文件网关 Amazon CloudWatch 日志组。如果确实如此,您将收到有关文件网关健康状态和文件网关遇到的错误的通知。您可以在 CloudWatch Logs 中查找有关这些错误和运行状况通知的信息。

在以下部分中,您可以找到相关信息来帮助您理解每个错误的原因、运行状况通知以及如何解决问题。

错误 不可访问存储类

当对象从 Amazon S3 标准存储类中移出时,您会收到 InaccessibleStorageClass 错误。

在这里,文件网关通常在尝试将指定对象上传到S3bucket或从S3bucket读取对象时遇到错误。出现此错误时,通常对象已移出 Amazon S3 Glacier,并且位于或 S3 Glacier 或 S3 Glacier Deep Archive 存储类中。

要解决不可访问的存储类错误

  • 将对象从 S3 Glacier 或 S3 Glacier 深度存档存储类返回到S3。

    如果将对象移动到S3bucket以修复上传错误,则文件最终会上传。如果将对象移动到S3bucket以修复读取错误,则文件网关的SMB或NFS客户端可以读取文件。

错误 S3访问被拒绝

您可以获得 S3AccessDenied 文件共享的错误 Amazon S3 bucket访问 AWS Identity and Access Management (IAM)角色。在这种情况下,S3bucket访问 IAM 由指定的角色 roleArn 错误不允许涉及的操作。不允许此操作,因为指定的目录中的对象具有 Amazon S3 前缀。

要解决S3AccessDenied错误

  • 修改 Amazon S3 访问策略,它附加到 roleArn 文件网关运行状况日志中的,以允许 Amazon S3 操作。请确保访问策略允许针对导致错误的操作的权限。此外,允许对日志中指定的目录的权限 prefix。有关的信息 Amazon S3 权限,请参阅 指定策略中的权限Amazon Simple Storage Service 开发人员指南.

    这些操作可能会导致出现 S3AccessDenied 错误。

    • S3HeadObject

    • S3GetObject

    • S3ListObjects

    • S3DeleteObject

    • S3PutObject

错误 无效对象状态

您可以获得 InvalidObjectState 当指定S3bucket中的指定文件由指定文件网关以外的写入器修改时出现错误。因此,文件网关的文件状态与其中的状态不匹配 Amazon S3. 文件的任何后续上传内容 Amazon S3 或检索文件 Amazon S3 失败。

如何解决InvalidObjectState错误

如果修改文件的操作是 S3UploadS3GetObject,执行以下操作:

  1. 将文件的最新副本保存到SMB或NFS客户端的本地文件系统(您需要在步骤4中复制此文件)。如果中的文件版本 Amazon S3 是最新版本,下载版本。您可以使用 AWS 管理控制台或 AWS CLI 执行此操作。

  2. 删除中的文件 Amazon S3 使用 AWS 管理控制台 或 AWS CLI.

  3. 使用SMB或NFS客户端从文件网关删除文件。

  4. 将步骤1中保存的最新版本的文件复制到 Amazon S3 使用SMB或NFS客户端。通过文件网关执行此操作。

错误 对象丢失

您可以获得 ObjectMissing 当指定文件网关以外的写入器从S3bucket中删除指定文件时出现错误。后续上传到 Amazon S3 或检索 Amazon S3 对象失败。

如何解决ObjectMissing错误

如果修改文件的操作是 S3UploadS3GetObject,执行以下操作:

  1. 将文件的最新副本保存到SMB或NFS客户端的本地文件系统(您需要在步骤3中复制此文件)。

  2. 使用SMB或NFS客户端从文件网关删除文件。

  3. 复制步骤1中保存的最新版本的文件 使用SMB或NFS客户端。通过文件网关执行此操作。

通知 重新启动。

在重新启动网关 VM 时,您会收到重启通知。您可以使用 VM 管理程序管理控制台或 Storage Gateway 控制台重新启动网关 VM。您也可以在网关维护周期内使用网关软件来重新启动。

如果重启时间在网关的已配置维护开始时间的 10 分钟内,则此重启可能是正常的,并不指示任何问题。如果重启发生在维护时段之外,请检查是否已手动重新启动网关。

通知 硬重新启动

当网关 VM 意外重启时,您会收到 HardReboot 通知。此类重启可能是因断电、硬件故障或其他事件导致的。对于 VMware 网关,通过 vSphere High Availability 应用程序监控进行重置会触发此事件。

当网关在此类环境中运行时,请检查是否存在 HealthCheckFailure 通知并查看 VM 的 VMware 事件日志。

通知 运行状况检查失败

对于 VMware vSphere HA 上的网关,当运行状况检查失败并请求重新启动 VM 时,您会收到 HealthCheckFailure 通知。此事件也会在测试期间发生来监控可用性(由 AvailabilityMonitorTest 通知指示)。在此情况下,应会有 HealthCheckFailure 通知。

注意

此通知仅适用于 VMware 网关。

如果此事件重复发生,但没有 AvailabilityMonitorTest 通知,请检查您的 VM 基础设施是否存在问题(存储、内存等)。如果您需要其他帮助,请联系 AWS Support.

通知 可用性监控测试

您会获得 AvailabilityMonitorTest 当您 运行测试可用性和应用程序监控 运行在VMwarevSphereHA平台上的网关上的。

错误 角色信任关系无效

当 IAM 文件共享的角色配置错误 IAM 信任关系(即 IAM 角色不信任 Storage Gateway 主体名称 storagegateway.amazonaws.com)。因此,文件网关无法获取凭据,无法在返回文件共享的S3bucket上运行任何操作。

要解决RoleTrustRelationship无效错误

  • 使用 IAM 控制台或 IAM 要包括的API storagegateway.amazonaws.com 作为受文件共享信任的主体 IAM角色。有关的信息 IAM 角色,请参阅 教程:跨 AWS 账户使用 IAM 角色.

使用排除故障 CloudWatch 指标

您可以在下面找到有关将 Amazon CloudWatch 指标用于 Storage Gateway 来解决问题时需执行的操作的信息。

浏览目录时网关反应缓慢

如果运行时文件网关反应缓慢 ls 命令或浏览目录,检查 IndexFetchIndexEviction CloudWatch 指标:

  • 如果 IndexFetch 当您运行一个 ls 命令或浏览目录,您的文件网关在启动时没有关于受影响目录的内容的信息,并且必须访问 Amazon S3. 后续列出该目录内容的工作应更快地进行。

  • 如果 IndexEviction 度量大于0,这意味着您的文件网关已达到其缓存中可管理的内容限制。在这种情况下,文件网关必须从最近访问次数最少的目录释放一些存储空间,以列出新的目录。如果这种情况经常发生,并且对性能有影响,请联系 AWS Support. 与 AWS Support 相关S3bucket的内容和基于用例提高性能的建议。

您的网关没有响应

如果您的文件网关没有响应,请执行以下操作:

  • 如果存在最近重启或软件更新,请检查 IOWaitPercent 指标。此指标显示当存在未完成磁盘 I/O 请求时 CPU 处于空闲状态的时间百分比。在某些情况下,此值可能会很高(10 或更高),并且可能会在服务器重启或更新后增大。在这些情况下,您的文件网关在重建索引缓存到RAM时可能会受到缓慢根磁盘的瓶颈。您可以通过为根磁盘使用更快的物理磁盘来解决此问题。

  • 如果 MemUsedBytes 度量等于或几乎等于 MemTotalBytes 度量,则文件网关将用完可用RAM。确保您的文件网关至少具有所需的最低RAM。如果已经这样做,请考虑根据您的工作负载和用例将更多RAM添加到文件网关。

    如果文件共享是 SMB,则问题可能也是因连接到文件共享的 SMB 客户端的数量导致的。要查看在任何给定时间连接的客户端数量,请检查 SMBV(1/2/3)Sessions 指标。如果连接了多个客户端,您可能需要向文件网关添加更多RAM。

您的网关传输数据的速度较慢 Amazon S3

如果文件网关传输数据的速度较慢 Amazon S3,执行以下操作:

  • 如果 CachePercentDirty 指标为80或更大,您的文件网关将数据写入磁盘的速度快于将数据上传到 Amazon S3. 考虑增加从文件网关上传的带宽,添加一个或多个缓存磁盘,或减慢客户端写入的速度。

  • 如果 CachePercentDirty 度量较低,请检查 IoWaitPercent 度量。如果 IoWaitPercent 大于10,您的文件网关可能受到本地缓存磁盘速度的瓶颈。我们建议您为缓存使用本地固态驱动器 (SSD) 磁盘,最好是 NVM Express (NVMe)。如果此类磁盘不可用,请尝试使用来自单独物理磁盘的多个缓存磁盘来提高性能。

您的网关备份作业失败或写入网关时出错

如果您的文件网关备份作业失败或写入文件网关时出错,请执行以下操作:

  • 如果 CachePercentDirty 度量为90%或以上,由于缓存磁盘上没有足够的可用空间,您的文件网关无法接受对磁盘的新写入。查看文件网关的上传速度 Amazon S3,查看 CloudBytesUploaded 度量。将该度量与 WriteBytes 度量,显示客户端将文件写入文件网关的速度。如果您的文件网关的写入速度快于它可上传到 Amazon S3,添加更多缓存磁盘以覆盖备份作业的大小(至少)。或者,增加上传带宽。

  • 如果备份作业失败,但 CachePercentDirty 度量小于80%,您的文件网关可能正处于客户端会话超时。对于SMB,您可以使用PowerShell命令增加此超时 Set-SmbClientConfiguration -SessionTimeout 300。运行此命令将超时设置为300秒。对于 NFS,请确保使用硬装载而非软装载来装载客户端。