通过 Amazon Batch 集成对集群中的问题进行故障排除 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 Amazon Batch 集成对集群中的问题进行故障排除

本节与具有 Amazon Batch 调度程序集成的集群相关。

头节点问题

您可以像排查 Slurm 集群问题一样排查头节点设置问题(Slurm 特定日志除外)。有关这些问题的更多信息,请参阅头节点

计算问题

Amazon Batch 管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅 Amazon Batch 故障排除文档以获取帮助。

作业失败

如果作业失败,您可以运行 awsbout 命令来检索作业输出。您也可以运行awsbstat命令以获取指向 Amazon 存储的任务日志的链接 CloudWatch。

端点 URL 连接超时错误

如果多节点并行作业失败并显示错误:Connect timeout on endpoint URL

  • awsbout 输出日志中,从输出中检查作业是否为多节点并行作业:Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • 验证计算节点子网是否为公有子网。

在中使用时,多节点 p Amazon Batch arallel 作业不支持使用公有子网。 Amazon ParallelCluster请为计算节点和作业使用私有子网。有关更多信息,请参阅 Amazon Batch User Guide 中的 Compute environment considerations。要为您的计算节点配置私有子网,请参阅使用 Amazon Batch 调度器的 Amazon ParallelCluster