检索和保留日志 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检索和保留日志

Amazon ParallelCluster为 HeadNode 和计算实例和存储创建 EC2 指标。您可以在控制台的自定义 CloudWatch 控制面板中查看指标。 Amazon ParallelCluster还会在 CloudWatch 日志组中创建集群日志流。您可以在 CloudWatch 控制台的自定义仪表板日志组中查看这些日志。监控集群配置部分描述了如何修改集群 CloudWatch日志和仪表板。有关更多信息,请参阅 与 Amazon CloudWatch Logs亚马逊 CloudWatch 控制面板

日志是故障排除的有用资源。例如,如果您想删除失败的集群,则首先创建集群日志的存档可能会很有用。按照中的存档日志步骤创建档案。

集群日志不可用 CloudWatch

如果集群日志不可用 CloudWatch,请检查以确保在向配置中添加自定义Amazon ParallelCluster CloudWatch 日志时没有覆盖日志配置。

要向 CloudWatch 配置中添加自定义日志,请确保附加到配置中,而不是提取并覆盖配置。有关fetch-config和的更多信息append-config,请参阅《CloudWatch 用户指南》中的多个 CloudWatch 代理配置文件

要恢复Amazon ParallelCluster CloudWatch 日志配置,可以在Amazon ParallelCluster节点内运行以下命令:

$ /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s

存档日志

您可以将日志存档在 Amazon S3 或本地文件中(取决于--output-file参数)。

注意

添加对 Amazon S3 存储桶策略的权限以授予 CloudWatch 访问权限。有关更多信息,请参阅CloudWatch 日志用户指南中的 Amazon S3 存储桶设置权限

$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs { "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." } # use the --output-file parameter to save the logs locally $ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz { "path": "/tmp/archive.tar.gz" }

该档案包含过去 14 天来自头节点和计算节点的 Amazon CloudWatch Logs 流和Amazon CloudFormation堆栈事件,除非在配置或export-cluster-logs命令参数中明确指定。命令完成所需的时间取决于集群中的节点数量和日志中 CloudWatch 可用的日志流数量。有关可用日志流的更多信息,请参阅与 Amazon CloudWatch Logs

保留的日志

从版本 3.0.0 开始,删除集群时默认Amazon ParallelCluster保留 CloudWatch 日志。如果您想删除集群并保留其日志,请确保在集群配置DeleteDeletionPolicy未将 MonitoringLogsCloudWatch///设置为。否则,将此字段的值更改为Retain,然后运行pcluster update-cluster命令。然后pcluster delete-cluster --cluster-name <cluster_name>,运行删除集群,但保留存储在 Amazon 中的日志组 CloudWatch。

终止的节点日志

如果静态计算节点意外终止并且 CloudWatch 没有相应的日志,请检查是否Amazon ParallelCluster已在/var/log/parallelcluster/compute_console_output日志中记录了头节点上该计算节点的控制台输出。有关更多信息,请参阅用于调试的密钥日志

如果/var/log/parallelcluster/compute_console_output日志不可用或不包含节点的输出,请使用从故障节点检索控制台输出。Amazon CLI登录到群集头节点并instance-id/var/log/parallelcluster/slurm_resume.log文件中获取故障节点。

使用以下命令检索控制台输出instance-id

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

如果动态计算节点在启动后自行终止并且 CloudWatch 没有相应的日志,请提交激活集群扩展操作的任务。等待实例失败并检索实例控制台日志。

登录到集群头节点并instance-id/var/log/parallelcluster/slurm_resume.log文件中获取计算节点。

使用以下命令检索实例控制台日志:

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

当计算节点日志不可用时,控制台输出日志可以帮助你调试计算节点故障的根本原因。