排查 SSD 缩减操作问题 - FSx 适用于 ONTAP
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

排查 SSD 缩减操作问题

本节介绍与 SSD 容量缩减操作相关的常见问题和解决方案。

由于 SSD 利用率较高,因此 SSD 缩减操作已暂停

如果您的 SSD 存储层在缩减操作期间使用率超过 80%,Amazon FSx 会自动暂停该操作。您可能会看到类似于以下内容的管理操作消息:

Your file system has insufficient free space in aggr_1. Please free up space or increase your file system's storage capacity.

利用率低于 80% 后,操作将恢复。要解决此问题,您可以执行以下操作:

  • 从已迁移至新磁盘的卷中删除多余数据。

  • 通过修改卷分层策略,将更多数据分层到容量池中。

  • 通过调用具有新目标值的 update-file-system,提交增加 SSD 容量的请求。

您应更新文件系统的 SSD 存储容量,确保在缩减操作后,文件系统的 SSD 容量利用率不超过 80%。有关更多详细信息,请参阅 更新文件系统 SSD 存储和 IOPS

通过检查 STORAGE_OPTIMIZATION 管理操作中的 Message 字段,您可以确定哪些卷已移动至新磁盘。

如果聚合为 aggr1aggr1_old,也可以调用 describe-volumes

由于 FlexClone 关系,您的 SSD 缩减操作已暂停

如果在启动 SSD 缩减操作后创建了FlexClone卷,Amazon 会 FSx 暂停该操作,直到克隆被删除。这是因为在移动卷时 ONTAP 会拆分克隆关系,这会导致新磁盘上的存储重复。要解决此问题,您可以识别并删除在缩减操作开始后创建的所有 FlexClone 卷。

删除所有 FlexClone 卷后,缩减操作将自动恢复。

在 SSD 缩减期间,重定向客户端访问卷失败

在 SSD 缩减操作期间,Amazon FSx 需要将客户端访问权限从旧磁盘重定向到每个卷的新磁盘。如果此过程失败,您可能会看到类似于以下内容的管理操作消息:

Redirecting client access for volume(s) fsvol-123 has failed due to insufficient SSD IOPS, throughput capacity, or because the volume is full.

要解决此问题,您可以执行以下操作:

  • 在 Amazon CloudWatch 中查看文件系统的资源利用率指标,确保您的工作负载消耗的资源不超过以下资源的 50%:

    • NetworkThroughputUtilization

    • FileServerDiskThroughputUtilization

    • FileServerDiskIopsUtilization

    • CPUUtilization

    • DiskIopsUtilization

  • 如果卷已满,则增加卷的存储容量。

  • 缩减操作期间,减少文件系统上的工作负载。

解决这些问题后,Amazon FSx 将自动重试每小时一次重定向客户端访问权限。

SSD 缩减操作的耗时超出预期

完成 SSD 缩减操作所需的时间取决于多个因素,包括文件系统中存储的数据量、当前的工作负载活动以及可用的系统资源。如果操作的耗时超出预期,则可以执行以下操作:

  • 验证文件系统是否有足够的可用资源(CPU、磁盘吞吐量和 SSD IOPS 利用率均低于 50%)。

  • 在操作期间减少写入密集型工作负载,以最大限度地减少资源争用。

通过检查 STORAGE_OPTIMIZATION 管理操作中的 ProgressPercent 属性,您可以跟踪操作的进度。