Amazon CloudWatch 控制面板 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon CloudWatch 控制面板

创建集群时会创建 Amazon CloudWatch 控制面板。这样可以更轻松地监控集群中的节点和查看存储在 Amazon CloudWatch Logs 中的日志。控制面板的名称为 ClusterName-RegionClusterName 是集群的名称,Region 是集群所在的 Amazon Web Services 区域。您可以在控制台中访问控制面板,也可以通过打开 https://console.aws.amazon.com/cloudwatch/home?region=Region#dashboards:name=ClusterName-Region 来访问控制面板。

下图显示了集群的 CloudWatch 控制面板示例。


      Dashboard graphs of the status of cluster resources.

头节点实例指标

控制面板的第一部分显示头节点 EC2 指标的图表。

如果您的集群具有共享存储,则下一部分将显示共享存储指标。

集群运行状况指标

如果您的集群使用 Slurm 进行调度,则集群运行状况指标图表会显示实时集群计算节点错误。有关更多信息,请参阅 集群运行状况指标故障排除。从 Amazon ParallelCluster 版本 3.6.0 开始,集群运行状况指标添加到了控制面板中。

头节点日志

最后一部分列出按照 Amazon ParallelCluster 日志、调度器日志、NICE DCV 集成日志和系统日志分组的头节点日志。

有关 Amazon CloudWatch 控制面板的更多信息,请参阅 Amazon CloudWatch 用户指南 中的使用 Amazon CloudWatch 控制面板

如果您不想创建 Amazon CloudWatch 控制面板,则可以通过将 Monitoring/Dashboards/CloudWatch/Enabled 设置为 false,将其关闭。

注意

如果您禁用 Amazon CloudWatch 控制面板的创建,则还会对集群禁用 Amazon CloudWatch disk_used_percentmemory_used_percent 警报。有关更多信息,请参阅 集群指标的 Amazon CloudWatch 警报

从 Amazon ParallelCluster 版本 3.6 开始,添加了 disk_used_percentmemory_used_percent 警报。