集群运行状况指标故障排除 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

集群运行状况指标故障排除

从 Amazon ParallelCluster 版本 3.6.0 开始,集群运行状况指标添加到了 Amazon ParallelCluster Amazon CloudWatch 控制面板中。在以下各节中,您可以了解控制面板运行状况指标以及可用于排除和解决问题的操作。

看到实例预置错误图表

如果您在Instance Provisioning Errors图表中看到非零值,则表示用于支持 Slurm 节点的 EC2 实例无法在 CreateFleetRunInstance API 上启动。

看到 IAMPolicyErrors

  • 发生了什么?

    权限不足导致许多实例启动失败,错误代码为 UnauthorizedOperation

  • 如何解决?

    如果您配置了自定义 InstanceRoleInstanceProfile,请检查 IAM 策略并验证使用的凭证是否正确。

    检查 clustermgtd 文件以查看静态节点错误详细信息。检查 slurm_resume.log 文件以查看动态节点错误详细信息。通过详细信息进一步了解必须添加的缺失权限。

看到 VcpuLimitErrors

  • 发生了什么?

    Amazon ParallelCluster 无法启动实例,因为已达到您的 Amazon Web Services 账户上为集群计算节点配置的特定 EC2 实例类型的 vCPU 限制。

  • 如何解决?

    在静态节点的 clustermgtd 文件和动态节点的 slurm_resume.log 文件中检查 VcpuLimitExceeded 错误,以获取更多详细信息。要解决此问题,您可以请求提高 vCPU 限制。有关如何查看当前限制和请求新限制的更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的 Amazon EC2 服务限额

看到 VolumeLimitErrors

  • 发生了什么?

    您已达到 Amazon Web Services 账户上的 Amazon EBS 卷限制,Amazon ParallelCluster 无法启动实例,错误代码为 InsufficientVolumeCapacityVolumeLimitExceeded

  • 如何解决?

    对静态节点检查 clustermgtd 文件,对动态节点检查 slurm_resume.log 文件,以获取更多卷限制详细信息。要解决此问题,您可以使用不同的 Amazon Web Services 区域、清理现有卷或联系 Amazon 支持中心以提交提高 Amazon EBS 卷限制的请求。

看到 InsufficientCapacityErrors

OtherInstanceLaunchFailures

  • 发生了什么?

    用于支持计算节点的 EC2 实例无法使用 CreateFleetRunInstance API 启动。

  • 如何解决?

    对静态节点检查 clustermgtd 文件,对动态节点检查 slurm_resume.log 文件,以获取错误的详细信息。

看到运行状况不佳的实例错误图表

  • 发生了什么?

    许多计算实例已启动,但随后因运行状况不佳而终止。

  • 如何解决?

    有关排查运行状况不佳的节点的更多信息,请参阅排查意外节点替换和终止问题

看到 InstanceBootstrapTimeoutError

  • 发生了什么?

    实例无法在 resume_timeout 内(对于动态节点)或 node_replacement_timeout 内(对于静态节点)加入集群。如果没有为计算节点正确配置网络,则可能会发生这种情况,或者,如果在计算节点上运行的自定义脚本需要太长时间才能完成,则可能会发生这种情况。

  • 如何解决?

    对于动态节点,检查 clustermgtd 日志 (/var/log/parallelcluster/clustermgtd) 以查看计算节点 IP 地址和错误,例如以下内容:

    Node bootstrap error: Resume timeout expires for node

    对于静态节点,检查 clustermgtd 日志 (/var/log/parallelcluster/clustermgtd) 以查看计算节点 IP 地址和错误,例如以下内容:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    有关更多详细信息,请检查 /var/log/cloud-init-output.log 文件中的错误。您可以从 clustermgtdslurm_resume 日志文件中检索有问题的计算节点的 IP 地址。

看到 EC2HealthCheckErrors

看到 ScheduledEventHealthCheckErrors

  • 发生了什么?

    实例未通过 EC2 计划事件运行状况检查,并且运行状况不佳。

  • 如何解决?

    有关如何排查此问题的信息,请参阅实例的计划事件

看到 NoCorrespondingInstanceErrors

  • 发生了什么?

    Amazon ParallelCluster 找不到实例支持节点。这些节点可能已在引导操作期间自行终止。SlurmQueues/CustomActions/OnNodeStart | OnNodeConfigured 脚本或网络错误可能会产生 NoCorrespondingInstanceErrors

  • 如何解决?

    有关更多详细信息,请检查 /var/log/cloud-init-output.log 以查看计算节点。

看到计算实例集空闲时间图表

看到 MaxDynamicNodeIdleTime 远长于空闲时间缩减阈值

  • 发生了什么?

    实例未正确终止。MaxDynamicNodeIdleTime 显示由 EC2 实例支持的动态节点处于空闲状态的最长时间(以秒为单位)。空闲时间缩减阈值源自集群配置 ScaledownIdletime 参数。当计算节点的空闲时间超过空闲时间缩减秒数时,Slurm 会关闭该节点,并且 Amazon ParallelCluster 会终止支持实例。在这种情况下,某些因素会阻止实例终止。

  • 如何解决?

    有关此问题的更多信息,请参阅排查扩展问题中的替换、终止或关闭有问题的实例和节点