在计算节点初始化中看到错误 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在计算节点初始化中看到错误

Node bootstrap error在里面看见clustermgtd.log

该问题与计算节点无法引导有关。有关如何调试集群保护模式问题的信息,请参阅如何调试保护模式

我配置了按需容量预留 (ODCR) 或区域预留实例

ODCR 包括具有多个网络接口的实例,例如 p4d、p4dE 和Amazon Trainium (Trn)

在集群配置文件中,检查HeadNode是否在公有子网中以及计算节点是否在私有子网中。

ODCR 是有针对性的 ODCR

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.尽管我已经准备好了,但请按照/opt/slurm/etc/pcluster/run_instances_overrides.json中给出的说明进行操作使用 ODCR(按需容量预留)启动实例

如果您将 3.1.1 到 3.2.1Amazon ParallelCluster 版本与目标 ODCR 一起使用,并且还使用运行实例替换 JSON 文件,则可能您的 JSON 文件格式不正确。您可能会在中看到错误clustermgtd.log,例如:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

通过运行以下命令验证 JSON 文件格式是否正确:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Found RunInstances parameters override.在集群创建失败clustermgtd.log时查看,或者在运行作业失败slurm_resume.log时查看

如果您使用的是运行实例替换 JSON 文件,请检查您是否在/opt/slurm/etc/pcluster/run_instances_overrides.json文件中正确设置了队列名称和计算资源名称。

An error occurred (InsufficientInstanceCapacity)在我无法运行任务slurm_resume.log时查看,或者clustermgtd.log当我无法创建集群时查看

使用 PG-ODCR(置放组 ODCR)

创建具有关联置放组的 ODCR 时,必须在配置文件中使用相同的置放组名称。在群集配置中设置相应的置放群组名称

使用可用区预留实例

如果您在集群配置true中使用带有PlacementGroup/Enabledto 的区域预留实例,则可能会看到错误,例如:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

您可能会看到这种情况,因为区域预留实例不在同一 UC(或主干中)中,这可能会在使用置放群组时导致容量不足错误 (ICE)。您可以通过禁用集群配置中的PlacementGroup组设置来检查这种情况,以确定集群是否可以分配实例。

An error occurred (VcpuLimitExceeded)在我无法运行任务slurm_resume.log时查看,或者在clustermgtd.log我无法创建集群时查看

检查您正在使用的特定 EC2 实例类型对您的账户的 vCPU 限制。如果您看到的 vCPUs 比您请求的少 0 个或更少,请申请提高限制。有关如何查看当前限制的信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的Amazon EC2 服务配额

An error occurred (InsufficientInstanceCapacity)在我无法运行任务slurm_resume.log时查看,或者在clustermgtd.log我无法创建集群时查看

您遇到了容量不足的问题。关注 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/对问题进行故障排除。

查看节点的DOWN状态为Reason (Code:InsufficientInstanceCapacity)...

您遇到了容量不足的问题。关注 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/对问题进行故障排除。有关快速容量不足故障切换模式Amazon ParallelCluster的更多信息,请参阅Slurm群集速度快容量不足故障转移

cannot change locale (en_US.utf-8) because it has an invalid name在里面看见slurm_resume.log

如果yum安装过程失败导致区域设置处于不一致状态,则可能会发生这种情况。例如,这可能是用户终止安装过程时造成的。

要验证原因,请执行以下操作:
  • 运行 su - pcluster-admin

    外壳显示错误,例如cannot change locale...no such file or directory

  • 运行 localedef --list

    返回一个空列表或不包含默认语言环境。

  • 使用yum history和检查最后一条yum命令yum history info #ID。最后一个身份证有Return-Code: Success吗?

    如果最后一个 ID 没有Return-Code: Success,则安装后脚本可能无法成功运行。

要修复此问题,请尝试使用重建语言环境yum reinstall glibc-all-langpacks。重建后,如果问题已修复,则su - pcluster-admin不显示错误或警告。

以前的场景都不适用于我的情况

要解决计算节点初始化问题,请参阅解决节点初始化问题

查看上的 “GitHub 已知问题” 中是否涵盖了您的场景 GitHub。Amazon ParallelCluster

有关其他支持,请参阅其他支持