通过 Amazon Batch 集成对集群中的问题进行故障排除 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 Amazon Batch 集成对集群中的问题进行故障排除

本节为集成了 Amazon Batch 调度程序的集群提供了可能的故障排除技巧,特别是头节点问题、计算问题、作业失败和超时错误。

头节点问题

您可以采用与解决头节点设置问题相同的方式进行故障排除 Slurm 集群(除了 Slurm 特定日志)。有关这些问题的更多信息,请参阅头节点

计算问题

Amazon Batch 管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅 Amazon Batch 故障排除文档以获取帮助。

作业失败

如果作业失败,您可以运行 awsbout 命令来检索作业输出。您也可以运行awsbstat命令以获取指向 Amazon 存储的任务日志的链接 CloudWatch。

端点URL错误时连接超时

如果多节点并行作业失败并显示错误:Connect timeout on endpoint URL

  • awsbout 输出日志中,从输出中检查作业是否为多节点并行作业:Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • 验证计算节点子网是否为公有子网。

在中使用时,多节点 p Amazon Batch arallel 作业不支持使用公有子网。 Amazon ParallelCluster请为计算节点和作业使用私有子网。有关更多信息,请参阅 Amazon Batch User Guide 中的 Compute environment considerations。要为您的计算节点配置私有子网,请参阅Amazon ParallelCluster 使用调 Amazon Batch 度器