本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过Amazon Batch集成对集群中的问题进行故障排除
本节与集成了Amazon Batch调度程序的集群有关。
头节点问题
您可以采用与Slurm集群相同的方式解决头节点设置问题(Slurm特定日志除外)。有关这些问题的更多信息,请参阅头节点。
计算问题
Amazon Batch管理服务的扩展和计算方面。如果您遇到与计算相关的问题,请参阅Amazon Batch故障排除文档以获取帮助。
Job 失败
如果作业失败,您可以运行awsbout命令来检索任务输出。您也可以运行该awsbstat命令来获取指向亚马逊存储的任务日志的链接 CloudWatch。
终端节点 URL 错误导致Connect 超时
如果多节点parallel 作业失败并显示错误:Connect timeout on endpoint URL
:
-
在
awsbout
输出日志中,从输出中检查作业是否是多节点parallel 的:Detected 3/3 compute nodes. Waiting for all compute nodes to start.
-
验证计算节点子网是否为公有子网。
多节点parallel 作业在使用时不支持使用Amazon Batch公共子网Amazon ParallelCluster。为您的计算节点和任务使用私有子网。有关更多信息,请参阅Amazon Batch用户指南中的计算环境注意事项。要为您的计算节点配置私有子网,请参阅Amazon ParallelCluster使用Amazon Batch调度程序。