Amazon EC2 控制台输出日志 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon EC2 控制台输出日志

当 Amazon ParallelCluster 检测到静态计算节点实例意外终止时,它会在一段时间后尝试从已终止的节点实例中检索 Amazon EC2 控制台输出。这样,如果计算节点无法与 Amazon 通信 CloudWatch,仍然可以从控制台输出中检索有关节点终止原因的有用故障排除信息。此控制台输出记录在头节点的 /var/log/parallelcluster/compute_console_output 日志中。有关亚马逊 EC2 控制台输出的更多信息,请参阅亚马逊 Linux 实例 EC2 用户指南中的实例控制台输出

默认情况下, Amazon ParallelCluster 仅从已终止节点的示例子集中检索控制台输出。在有大量终止导致多个控制台输出请求的情况下,这可防止集群头节点不堪重负。默认情况下, Amazon ParallelCluster 在终止检测和控制台输出检索之间等待 5 分钟,让 Amazon 有 EC2 时间从节点检索最终的控制台输出。

您可以在头节点上的 /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf 文件中编辑样本量和等待时间参数值。

此功能已在 3.5.0 Amazon ParallelCluster 版本中添加。

Amazon EC2 控制台输出参数

您可以在头节点/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf的文件中编辑以下 Amazon EC2 控制台输出参数的值。

compute_console_logging_enabled

要禁用控制台输出日志收集,请将 compute_console_logging_enabled 设置为 false。默认值为 true

您可以随时更新此参数,而无需停止计算实例集。

compute_console_logging_max_sample_size

compute_console_logging_max_sample_size设置每次检测到意外终止时从中 Amazon ParallelCluster 收集控制台输出的最大计算节点数。如果此值小于1,则从所有终止的节点 Amazon ParallelCluster 检索控制台输出。默认值为 1

您可以随时更新此参数,而无需停止计算实例集。

compute_console_wait_time

compute_console_wait_time设置从检测到节点故障到从该节点收集控制台输出之间 Amazon ParallelCluster 等待的时间(以秒为单位)。如果您确定 Amazon EC2 需要更多时间来收集已终止节点的最终输出,则可以延长等待时间。默认值为 300 秒(5 分钟)。

您可以随时更新此参数,而无需停止计算实例集。