通过Amazon Batch集成对集群中的问题进行故障排除 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过Amazon Batch集成对集群中的问题进行故障排除

本节与集成了Amazon Batch调度程序的集群有关。

头节点问题

您可以采用与Slurm集群相同的方式解决头节点设置问题(Slurm特定日志除外)。有关这些问题的更多信息,请参阅头节点

计算问题

Amazon Batch管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅Amazon Batch故障排除文档以获取帮助。

Job 失败

如果作业失败,您可以运行awsbout命令来检索任务输出。您也可以运行该awsbstat命令来获取指向亚马逊存储的任务日志的链接 CloudWatch。

终端节点 URL 错误导致Connect 超时

如果多节点parallel 作业失败并显示错误:Connect timeout on endpoint URL:

  • awsbout输出日志中,从输出中检查作业是否是多节点parallel 的:Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • 验证计算节点子网是否为公有子网。

多节点parallel 作业在使用时不支持使用Amazon Batch公共子网Amazon ParallelCluster。为您的计算节点和任务使用私有子网。有关更多信息,请参阅Amazon Batch用户指南中的计算环境注意事项。要为您的计算节点配置私有子网,请参阅Amazon ParallelCluster使用Amazon Batch调度程序