排查存储问题 - FSx for Lustre
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

排查存储问题

在某些情况下,您的文件系统可能会遇到存储问题。您可以使用以下方法对这些问题进行故障排除lfs命令,例如lfs migrate命令。

由于存储目标上没有空间而导致写入错误

您可以使用以下命令检查文件系统的存储使用情况lfs df -h命令,如中所述文件系统存储布局. 这些区域有:filesystem_summary字段报告文件系统存储的总使用量。

如果文件系统磁盘使用率为 100%,请考虑增加文件系统的存储容量。有关更多信息,请参阅 管理存储和吞吐量容量

如果文件系统存储使用率不是 100%,并且仍然出现写入错误,则您正在写入的文件可能会在已满的 OST 上进行条带化。

要采取的操作

如果您的许多 OST 已满,请增加文件系统的存储容量。通过执行以下操作来检查 OST 上是否存在不平衡的存储主机上的存储不平衡部分。

主机上的存储不平衡

面向 Amazon FSx for Lustre 将新的文件条带均匀分布在 OST 中。但是,由于 I/O 模式或文件存储布局,您的文件系统仍可能变得不平衡。因此,一些存储目标可能会变满,而其他存储目标则相对空白。

要采取的操作

  1. 启动相对较大的客户端实例(如 Amazon EC2)c5n.4xlarge实例类型)以挂载到文件系统。

  2. 在运行migrate命令,首先在每个客户端实例上运行以下命令以加快该过程:

    sudo lctl set_param 'mdc.*.max_rpcs_in_flight=60' sudo lctl set_param 'mdc.*.max_mod_rpcs_in_flight=59'
  3. 启动屏幕会话并运行以下脚本。请务必更改以下变量:

    • 替换中的值OSTS与你的 OST 的价值相提并论。

    • 提供一个整数值到nproc来设置要parallel 运行的 max-procs 进程的数量。例如,Amazon EC2c5n.4xlarge实例类型有 16 个 vCPUs,因此您可以使用16(或值小于 16)nproc.

    • 在中提供您的挂载目录路径mnt_dir_path.

    # find all OSTs with usage above a certain threshold; for example, greater than or equal to 85% full for OST in $(lfs df -h |egrep '( 8[5-9]| 9[0-9]|100)%'|cut -d' ' -f1); do echo ${OST};done|tr '\012' ',' # customer can also just pass OST values directly to OSTS variable OSTS='dzfevbmv-OST0000_UUID,dzfevbmv-OST0002_UUID,dzfevbmv-OST0004_UUID,dzfevbmv-OST0005_UUID,dzfevbmv-OST0006_UUID,dzfevbmv-OST0008_UUID' nproc=<Run up to max-procs processes if client is c5n.4xlarge with 16 vcpu, this value can be set to 16> mnt_dir_path=<mount dir, e.g. '/my_mnt'> lfs find ${mnt_dir_path} --ost ${OSTS}| xargs -P ${nproc} -n2 lfs migrate -E 1g -c 1 -E -1 -c5

备注

  • 如果您注意到文件系统的读取性能受到影响,则可以随时使用以下命令停止迁移ctrl-c或者 kill -9,并减少线程数量(nproc值)恢复到较小的数字(如 8),然后继续迁移文件。

  • 这些区域有:lfs migrate命令将在同样由客户端工作负载打开的文件上失败。它会抛出错误并移到下一个文件;因此,如果访问的文件很多,脚本将无法迁移任何文件,并且在迁移进展非常缓慢时会反映出来。

  • 您可以使用以下任一方法监控 OST 使用情况

    • 在客户端挂载时,运行以下命令监视 OST 使用情况,并找到使用率大于 85% 的 OST:

      lfs df -h |egrep '( 8[5-9]| 9[1-9]|100)%'
    • 查看 Amazon CloudWatch 指标,OST FreeDataStorageCapacity,CheckMinimum. 如果您的脚本发现 OST 的使用率超过 85%,那么当指标接近 15% 时,请使用ctrl-c要么kill -9以停止迁移。

  • 您也可以考虑更改文件系统或目录的条带配置,以便跨多个存储目标对新文件进行条带化。有关更多信息,请参阅中的对文件系统中的数据进行条带化.