本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
检索和保留日志
Amazon ParallelCluster为 HeadNode 和计算实例和存储创建 EC2 指标。您可以在控制台的自定义 CloudWatch 控制面板中查看指标。 Amazon ParallelCluster还会在 CloudWatch 日志组中创建集群日志流。您可以在 CloudWatch 控制台的自定义仪表板或日志组中查看这些日志。监控集群配置部分描述了如何修改集群 CloudWatch日志和仪表板。有关更多信息,请参阅 与 Amazon CloudWatch Logs 和 亚马逊 CloudWatch 控制面板。
日志是故障排除的有用资源。例如,如果您想删除失败的集群,则首先创建集群日志的存档可能会很有用。按照中的存档日志步骤创建档案。
集群日志不可用 CloudWatch
如果集群日志不可用 CloudWatch,请检查以确保在向配置中添加自定义Amazon ParallelCluster CloudWatch 日志时没有覆盖日志配置。
要向 CloudWatch 配置中添加自定义日志,请确保附加到配置中,而不是提取并覆盖配置。有关fetch-config
和的更多信息append-config
,请参阅《CloudWatch 用户指南》中的多个 CloudWatch 代理配置文件。
要恢复Amazon ParallelCluster CloudWatch 日志配置,可以在Amazon ParallelCluster节点内运行以下命令:
$
/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s
存档日志
您可以将日志存档在 Amazon S3 或本地文件中(取决于--output-file
参数)。
添加对 Amazon S3 存储桶策略的权限以授予 CloudWatch 访问权限。有关更多信息,请参阅CloudWatch 日志用户指南中的 Amazon S3 存储桶设置权限。
$
pcluster export-cluster-logs --cluster-name
mycluster
--regioneu-west-1
\ --bucketbucketname
--bucket-prefixlogs
{ "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." }
# use the --output-file parameter to save the logs locally$
pcluster export-cluster-logs --cluster-name
mycluster
--regioneu-west-1
\ --bucketbucketname
--bucket-prefixlogs
--output-file/tmp/archive.tar.gz
{ "path": "/tmp/archive.tar.gz" }
该档案包含过去 14 天来自头节点和计算节点的 Amazon CloudWatch Logs 流和Amazon CloudFormation堆栈事件,除非在配置或export-cluster-logs
命令参数中明确指定。命令完成所需的时间取决于集群中的节点数量和日志中 CloudWatch 可用的日志流数量。有关可用日志流的更多信息,请参阅与 Amazon CloudWatch Logs。
保留的日志
从版本 3.0.0 开始,删除集群时默认Amazon ParallelCluster保留 CloudWatch 日志。如果您想删除集群并保留其日志,请确保在集群配置Delete
中DeletionPolicy未将 MonitoringLogsCloudWatch///设置为。否则,将此字段的值更改为Retain
,然后运行pcluster update-cluster
命令。然后pcluster delete-cluster --cluster-name
,运行删除集群,但保留存储在 Amazon 中的日志组 CloudWatch。<cluster_name>
终止的节点日志
如果静态计算节点意外终止并且 CloudWatch 没有相应的日志,请检查是否Amazon ParallelCluster已在/var/log/parallelcluster/compute_console_output
日志中记录了头节点上该计算节点的控制台输出。有关更多信息,请参阅用于调试的密钥日志:
如果/var/log/parallelcluster/compute_console_output
日志不可用或不包含节点的输出,请使用从故障节点检索控制台输出。Amazon CLI登录到群集头节点并instance-id
从/var/log/parallelcluster/slurm_resume.log
文件中获取故障节点。
使用以下命令检索控制台输出instance-id
:
$
aws ec2 get-console-output --instance-id
i-abcdef01234567890
如果动态计算节点在启动后自行终止并且 CloudWatch 没有相应的日志,请提交激活集群扩展操作的任务。等待实例失败并检索实例控制台日志。
登录到集群头节点并instance-id
从/var/log/parallelcluster/slurm_resume.log
文件中获取计算节点。
使用以下命令检索实例控制台日志:
$
aws ec2 get-console-output --instance-id
i-abcdef01234567890
当计算节点日志不可用时,控制台输出日志可以帮助你调试计算节点故障的根本原因。