与 Amazon CloudWatch Logs 集成 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

与 Amazon CloudWatch Logs 集成

有关 CloudWatch Logs 的更多信息,请参阅 Amazon CloudWatch Logs 用户指南。要配置 CloudWatch Logs 集成,请参阅 Monitoring 部分。要了解如何使用 append-config 将自定义日志附加到 CloudWatch 配置,请参阅 Amazon CloudWatch 用户指南 中的多个 CloudWatch 代理配置文件

Amazon CloudWatch Logs 集群日志

将为每个集群创建一个名为 /aws/parallelcluster/cluster-name-<timestamp> 的日志组(例如 /aws/parallelcluster/testCluster-202202050215)。每个节点上的每个日志(如果路径包含 *,则为一组日志)都有一个名为 {hostname}.{instance_id}.{logIdentifier} 的日志流。(例如 ip-172-31-10-46.i-02587cf29cc3048f3.nodewatcher。) 日志数据由 CloudWatch 代理发送到 CloudWatch,该代理以 root 身份在所有集群实例上运行。

创建集群时会创建 Amazon CloudWatch 控制面板。通过此控制面板,可以查看存储在 CloudWatch Logs 中的日志。有关更多信息,请参阅 Amazon CloudWatch 控制面板

下面的列表包含适用于平台、调度器和节点的日志流的 logIdentifier 和路径。

适用于平台、调度器和节点的日志流
平台 调度器 节点 日志流

amazon

centos

redhat

ubuntu

awsbatch

slurm

HeadNode

dcv-authenticator:/var/log/parallelcluster/pcluster_dcv_authenticator.log

dcv-ext-authenticator:/var/log/parallelcluster/pcluster_dcv_connect.log

dcv-agent:/var/log/dcv/agent.*.log

dcv-xsession:/var/log/dcv/dcv-xsession.*.log

dcv-server:/var/log/dcv/server.log

dcv-session-launcher:/var/log/dcv/sessionlauncher.log

Xdcv:/var/log/dcv/Xdcv.*.log

cfn-init:/var/log/cfn-init.log

chef-client:/var/log/chef-client.log

amazon

centos

redhat

ubuntu

awsbatch

slurm

ComputeFleet

HeadNode

cloud-init:/var/log/cloud-init.log

supervisord:/var/log/supervisord.log

amazon

centos

redhat

ubuntu

slurm

ComputeFleet

cloud-init-output:/var/log/cloud-init-output.log

computemgtd:/var/log/parallelcluster/computemgtd

slurmd:/var/log/slurmd.log

slurm_prolog_epilog:/var/log/parallelcluster/slurm_prolog_epilog.log

amazon

centos

redhat

ubuntu

slurm

HeadNode

sssd:/var/log/sssd/sssd.log

sssd_domain_default:/var/log/sssd/sssd_default.log

pam_ssh_key_generator:/var/log/parallelcluster/pam_ssh_key_generator.log

clusterstatusmgtd:/var/log/parallelcluster/clusterstatusmgtd

clustermgtd:/var/log/parallelcluster/clustermgtd

compute_console_output:/var/log/parallelcluster/compute_console_output

slurm_resume:/var/log/parallelcluster/slurm_resume.log

slurm_suspend:/var/log/parallelcluster/slurm_suspend.log

slurmctld:/var/log/slurmctld.log

slurm_fleet_status_manager:/var/log/parallelcluster/slurm_fleet_status_manager.log

amazon

centos

redhat

awsbatch

slurm

ComputeFleet

HeadNode

system-messages:/var/log/messages

ubuntu

awsbatch

slurm

ComputeFleet

HeadNode

syslog:/var/log/syslog

集群中使用 Amazon Batch 的作业会将进入 RUNNINGSUCCEEDEDFAILED 状态的作业的输出存储在 CloudWatch Logs 中。日志组为 /aws/batch/job,日志流名称格式为 jobDefinitionName/default/ecs_task_id。默认情况下,这些日志设置为不过期,但您可以修改保留期。有关更多信息,请参阅 Amazon CloudWatch Logs 用户指南 中的更改 CloudWatch Logs 中的日志数据留存

Amazon CloudWatch Logs 构建映像日志

将为每个自定义构建映像创建名为 /aws/imagebuilder/ParallelClusterImage-<image-id> 的日志组。名为 {pcluster-version}/1 的唯一日志流包含构建映像过程的输出。

您可以使用 pcluster 映像命令访问这些日志。有关更多信息,请参阅 Amazon ParallelCluster AMI 自定义