本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
EC2 控制台输出日志
当Amazon ParallelCluster检测到静态计算节点实例意外终止时,它会尝试在一段时间后从已终止的节点实例中检索 EC2 控制台输出。这样,如果计算节点无法与 Amazon 通信 CloudWatch,仍可从控制台输出中检索有关节点终止原因的有用故障排除信息。此控制台输出记录在头节点/var/log/parallelcluster/compute_console_output
的日志中。有关 EC2 控制台输出的更多信息,请参阅 A mazon EC2 用户指南(适用于 Linux 实例)中的实例控制台输出。
默认情况下,Amazon ParallelCluster仅从已终止节点的示例子集检索控制台输出。这样可以防止集群头节点因大量终止而导致的多个控制台输出请求不堪重负。默认情况下,Amazon ParallelCluster在终止检测和控制台输出检索之间等待 5 分钟,以让 EC2 有时间从节点检索最终的控制台输出。
您可以在头节点上的/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
文件中编辑样本大小和等待时间参数值。
此功能已在 3.5Amazon ParallelCluster 版中添加。
EC2 控制台输出参数
您可以在头节点上的/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
文件中编辑以下 EC2 控制台输出参数的值。
compute_console_logging_enabled
要禁用控制台输出日志收集,请设置compute_console_logging_enabled
为false
。默认为 true
。
您可以随时更新此参数,而无需地域名,而无需地域名。
compute_console_logging_max_sample_size
compute_console_logging_max_sample_size
设置每次检测到意外终止时从中Amazon ParallelCluster收集控制台输出的最大计算节点数。如果此值小于1
,则从所有已终止的节点Amazon ParallelCluster检索控制台输出。默认值为 1
。
您可以随时更新此参数,而无需地域名,而无需地域名。
compute_console_wait_time
compute_console_wait_time
设置从检测到节点故障到收集该节点的控制台输出之间的Amazon ParallelCluster等待时间(以秒为单位)。如果您确定 EC2 需要更多时间来收集终止节点的最终输出,则可以延长等待时间。默认值为 300 秒(5 分钟)。
您可以随时更新此参数,而无需地域名,而无需地域名。