亚马逊 CloudWatch 控制面板 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 CloudWatch 控制面板

Amazon CloudWatch 控制面板是在创建集群时创建的。这样可以更轻松地监控集群中的节点和查看 Amazon Logs 中存储的 CloudWatch 日志。控制面板的名称为 ClusterName-RegionClusterName是您的集群的名称,Region 是 Amazon Web Services 区域 集群所在的名称。您可以在控制台中访问控制面板,也可以通过打开 https://console.aws.amazon.com/cloudwatch/home?region=Region#dashboards:name=ClusterName-Region 来访问控制面板。

下图显示了集群的示例 CloudWatch 仪表板。

Dashboard graphs of the status of cluster resources.

头节点实例指标

控制面板的第一部分显示了头节点 Amazon EC2 指标的图表。

如果您的集群具有共享存储,则下一部分将显示共享存储指标。

集群运行状况指标

如果您的集群使用 Slurm 进行调度,则集群运行状况指标图表会显示实时集群计算节点错误。有关更多信息,请参阅 集群运行状况指标故障排除。从 3.6.0 Amazon ParallelCluster 版开始,集群运行状况指标已添加到控制面板中。

头节点日志

最后一部分列出了按 Amazon ParallelCluster日志、调度程序日志、NICE DCV 集成日志和系统日志分组的头节点日志。

有关亚马逊 CloudWatch 控制面板的更多信息,请参阅亚马逊 CloudWatch 用户指南中的使用亚马逊 CloudWatch 控制面板

如果您不想创建 Amazon CloudWatch 控制面板,可以通过将 Monitoring//DashboardsCloudWatch/设置Enabled为将其关闭false

注意

如果您禁用创建亚马逊 CloudWatch 控制面板,则还会禁用集群的亚马逊 CloudWatch disk_used_percentmemory_used_percent警报。有关更多信息,请参阅 集群指标的 Amazon CloudWatch 警报

从 3.6 Amazon ParallelCluster 版开始添加disk_used_percentmemory_used_percent警报。