本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过 Amazon Batch 集成对集群中的问题进行故障排除
本节为集成了 Amazon Batch 调度程序的集群提供了可能的故障排除技巧,特别是头节点问题、计算问题、作业失败和超时错误。
头节点问题
您可以采用与解决头节点设置问题相同的方式进行故障排除 Slurm 集群(除了 Slurm 特定日志)。有关这些问题的更多信息,请参阅头节点。
计算问题
Amazon Batch 管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅 Amazon Batch 故障排除文档以获取帮助。
作业失败
如果作业失败,您可以运行 awsbout 命令来检索作业输出。您也可以运行awsbstat命令以获取指向 Amazon 存储的任务日志的链接 CloudWatch。
端点URL错误时连接超时
如果多节点并行作业失败并显示错误:Connect timeout on endpoint URL
:
-
在
awsbout
输出日志中,从输出中检查作业是否为多节点并行作业:Detected 3/3 compute nodes. Waiting for all compute nodes to start.
-
验证计算节点子网是否为公有子网。
在中使用时,多节点 p Amazon Batch arallel 作业不支持使用公有子网。 Amazon ParallelCluster请为计算节点和作业使用私有子网。有关更多信息,请参阅 Amazon Batch User Guide 中的 Compute environment considerations。要为您的计算节点配置私有子网,请参阅Amazon ParallelCluster 使用调 Amazon Batch 度器。