EC2 控制台输出日志 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

EC2 控制台输出日志

当Amazon ParallelCluster检测到静态计算节点实例意外终止时,它会尝试在一段时间后从已终止的节点实例中检索 EC2 控制台输出。这样,如果计算节点无法与 Amazon 通信 CloudWatch,仍可从控制台输出中检索有关节点终止原因的有用故障排除信息。此控制台输出记录在头节点/var/log/parallelcluster/compute_console_output的日志中。有关 EC2 控制台输出的更多信息,请参阅 A mazon EC2 用户指南(适用于 Linux 实例)中的实例控制台输出

默认情况下,Amazon ParallelCluster仅从已终止节点的示例子集检索控制台输出。这样可以防止集群头节点因大量终止而导致的多个控制台输出请求不堪重负。默认情况下,Amazon ParallelCluster在终止检测和控制台输出检索之间等待 5 分钟,以让 EC2 有时间从节点检索最终的控制台输出。

您可以在头节点上的/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf文件中编辑样本大小和等待时间参数值。

此功能已在 3.5Amazon ParallelCluster 版中添加。

EC2 控制台输出参数

您可以在头节点上的/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf文件中编辑以下 EC2 控制台输出参数的值。

compute_console_logging_enabled

要禁用控制台输出日志收集,请设置compute_console_logging_enabledfalse。默认为 true

您可以随时更新此参数,而无需地域名,而无需地域名。

compute_console_logging_max_sample_size

compute_console_logging_max_sample_size设置每次检测到意外终止时从中Amazon ParallelCluster收集控制台输出的最大计算节点数。如果此值小于1,则从所有已终止的节点Amazon ParallelCluster检索控制台输出。默认值为 1

您可以随时更新此参数,而无需地域名,而无需地域名。

compute_console_wait_time

compute_console_wait_time设置从检测到节点故障到收集该节点的控制台输出之间的Amazon ParallelCluster等待时间(以秒为单位)。如果您确定 EC2 需要更多时间来收集终止节点的最终输出,则可以延长等待时间。默认值为 300 秒(5 分钟)。

您可以随时更新此参数,而无需地域名,而无需地域名。