本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon EC2 控制台输出日志
当 Amazon ParallelCluster 检测到静态计算节点实例意外终止时,它会在一段时间后尝试从已终止的节点实例中检索 Amazon EC2 控制台输出。这样,如果计算节点无法与 Amazon 通信 CloudWatch,仍然可以从控制台输出中检索有关节点终止原因的有用故障排除信息。此控制台输出记录在头节点的 /var/log/parallelcluster/compute_console_output
日志中。有关亚马逊 EC2 控制台输出的更多信息,请参阅亚马逊 Linux 实例 EC2 用户指南中的实例控制台输出。
默认情况下, Amazon ParallelCluster 仅从已终止节点的示例子集中检索控制台输出。在有大量终止导致多个控制台输出请求的情况下,这可防止集群头节点不堪重负。默认情况下, Amazon ParallelCluster 在终止检测和控制台输出检索之间等待 5 分钟,让 Amazon 有 EC2 时间从节点检索最终的控制台输出。
您可以在头节点上的 /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
文件中编辑样本量和等待时间参数值。
此功能已在 3.5.0 Amazon ParallelCluster 版本中添加。
Amazon EC2 控制台输出参数
您可以在头节点/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
的文件中编辑以下 Amazon EC2 控制台输出参数的值。
compute_console_logging_enabled
要禁用控制台输出日志收集,请将 compute_console_logging_enabled
设置为 false
。默认值为 true
。
您可以随时更新此参数,而无需停止计算实例集。
compute_console_logging_max_sample_size
compute_console_logging_max_sample_size
设置每次检测到意外终止时从中 Amazon ParallelCluster 收集控制台输出的最大计算节点数。如果此值小于1
,则从所有终止的节点 Amazon ParallelCluster 检索控制台输出。默认值为 1
。
您可以随时更新此参数,而无需停止计算实例集。
compute_console_wait_time
compute_console_wait_time
设置从检测到节点故障到从该节点收集控制台输出之间 Amazon ParallelCluster 等待的时间(以秒为单位)。如果您确定 Amazon EC2 需要更多时间来收集已终止节点的最终输出,则可以延长等待时间。默认值为 300 秒(5 分钟)。
您可以随时更新此参数,而无需停止计算实例集。