Troubleshooting - 适用于Lustre的AmazonFSx
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

Troubleshooting

使用以下信息帮助您解决在使用时可能遇到的问题 Amazon FSx for Lustre.

文件系统安装失败

文件系统挂载命令立即失败。下面的代码显示了一个示例。

mount.lustre: mount fs-0123456789abcdef0.fsx.us-east-1.aws@tcp:/fsx at /lustre failed: No such file or directory Is the MGS specification correct? Is the filesystem name correct?

如果您不使用正确的 mountname 的值,使用 mount 命令。您可以获取 mountnamedescribe-file-systems AWS CLI 命令或 DescribeFileSystems API操作。

文件系统挂载挂起,然后失败,并显示超时错误

文件系统挂载命令挂起一两分钟,然后失败,并显示超时错误。

下面的代码显示了一个示例。

sudo mount -t lustre file_system_dns_name@tcp:/mountname /mnt/fsx [2+ minute wait here] Connection timed out

这个错误可能发生,因为 Amazon EC2 实例或文件系统未正确配置。

采取的操作

请确保文件系统的安全组具有在中指定的入站规则 Amazon VPC 个安全组.

自动挂载失败,并且实例没有响应

在某些情况下,文件系统和您的 Amazon EC2 实例可能停止响应。

如果 _netdev 选项未声明。如果 _netdev 缺失,您的 Amazon EC2 实例可以停止响应。出现该结果是因为,需要在计算实例启动其网络后初始化网络文件系统。

采取的操作

如果出现该问题,请与 AWS Support 联系。

使用 DNS 名称的文件系统挂载失败

使用域名服务(DNS)名称的文件系统挂载失败。下面的代码显示了一个示例。

sudo mount -t lustre file_system_dns_name@tcp:/mountname /mnt/fsx mount.lustre: Can't parse NID 'file_system_dns_name@tcp:/mountname'

采取的操作

检查您的虚拟私有云(VPC)配置。如果使用自定义 VPC,请确保已启用 DNS 设置。有关更多信息,请参阅 Amazon VPC 用户指南中的在您的 VPC 中使用 DNS

要在中指定DNS名称 mount 命令,执行以下操作:

  • 确保 Amazon EC2 实例与您的VPC位于同一VPC中 Amazon FSx for Lustre 文件系统。

  • 连接您的 Amazon EC2 配置为使用Amazon提供的DNS服务器的VPC中的实例。有关更多信息,请参阅 Amazon VPC 用户指南中的 DHCP 选项集

  • 确保连接 Amazon VPC 实例的 Amazon EC2 已启用 DNS 主机名。有关更多信息,请参阅 https://docs.amazonaws.cn/AmazonVPC/latest/UserGuide/vpc-dns.html#vpc-dns-updating 中的Amazon VPC 用户指南更新 VPC 的 DNS 支持

使用域名服务(DNS)名称的文件系统挂载失败。下面的代码显示了一个示例。

mount -t lustre file_system_dns_name@tcp:/mountname /mnt/fsx mount.lustre: mount file_system_dns_name@tcp:/mountname at /mnt/fsx failed: Input/output error Is the MGS running?

采取的操作

确保客户端的VPC安全组应用了正确的出站流量规则。此建议将保持有效,特别是如果您未使用默认授权组,或者您已修改了默认授权组。有关更多信息,请参阅Amazon VPC 个安全组

对错误配置的链接S3bucket进行故障排除

在某些情况下, Amazon FSx for Lustre 文件系统的已链接S3bucket可能具有错误配置的数据存储库生命周期状态。有关更多信息,请参阅数据存储库生命周期状态。链接的数据存储库在下列条件下可能存在配置错误的生命周期状态:

可能的原因

如果 Amazon FSx 没有必要的 AWS Identity and Access Management (人IAM)权限。所需的 IAM 权限支持 Amazon FSx for Lustre 用于访问指定 Amazon S3 bucket代表您。

采取的操作

  1. 确保您的 IAM 实体(用户、组或角色)具有创建文件系统的相应权限。执行此操作包括添加支持 Amazon FSx for Lustre 服务链接角色。有关更多信息,请参阅在中使用数据存储库的权限 Amazon S3

  2. 使用 Amazon FSx CLI或API,刷新文件系统的 AutoImportPolicyupdate-file-system CLI命令(更新文件系统 是等效API操作),如下所示。

    aws fsx update-file-system \ --file-system-id fs-0123456789abcdef0 \ --lustre-configuration AutoImportPolicy=the_existing_AutoImportPolicy

有关服务相关角色的更多信息,请参阅对 Amazon FSx for Lustre 使用服务相关角色

可能原因

如果链接的 Amazon S3 数据存储库具有现有事件通知配置,事件类型与重叠 Amazon FSx 事件通知配置(s3:ObjectCreated:*, s3:ObjectRemoved:*)。

如果 Amazon FSx 链接的S3bucket上的事件通知配置已删除或修改。

采取的操作

  1. 删除链接的S3bucket上使用FSx事件配置所使用的事件类型或两种类型的任何现有事件通知, s3:ObjectCreated:*s3:ObjectRemoved:*.

  2. 请确保您链接的S3bucket中有S3事件通知配置,名称为 FSx,事件类型 s3:ObjectCreated:*s3:ObjectRemoved:*,并发送到SNS主题, ARN:topic_arn_returned_in_API_response.

  3. 使用 Amazon FSx CLI或API,以刷新文件系统的 AutoImportPolicy。使用 update-file-system CLI命令(更新文件系统 是等效API操作),如下所示。

    aws fsx update-file-system \ --file-system-id fs-0123456789abcdef0 \ --lustre-configuration AutoImportPolicy=the_existing_AutoImportPolicy

无法创建链接到S3bucket的文件系统

如果创建新的文件系统链接到S3bucket,则会出现错误消息,类似于以下。

User: arn:aws:iam::012345678901:user/username is not authorized to perform: iam:PutRolePolicy on resource: resource ARN

如果您尝试创建链接到 Amazon S3 无需 IAM 权限。所需的 IAM 权限支持 Amazon FSx for Lustre 用于访问指定 Amazon S3 bucket代表您。

采取的操作

确保您的 IAM 实体(用户、组或角色)具有创建文件系统的相应权限。执行此操作包括添加支持 Amazon FSx for Lustre 服务链接角色。有关更多信息,请参阅在中使用数据存储库的权限 Amazon S3

有关服务相关角色的更多信息,请参阅对 Amazon FSx for Lustre 使用服务相关角色