

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 集群警报
<a name="troubleshooting-v3-cluster-alarms"></a>

集群运行状况监控对于确保最佳性能至关重要。 Amazon ParallelCluster 使您能够监控集群头节点 CloudWatch 的多个警报。

本节详细介绍了每种类型的头节点集群警报，包括其命名约定、触发警报的特定条件和建议的问题排查步骤。

例如，集群警报的命名约定是 `CLUSTER_NAME-COMPONENT-METRIC`，例如 `mycluster-HeadNode-Cpu`。
+ `CLUSTER_NAME-HeadNode`：表示头节点的整体状态。如果以下警报中至少有一个是红色的，它就是红色的。
+ `CLUSTER_NAME-HeadNode-Health`：如果至少有一次 Amazon EC2 运行状况检查失败，则显示红色。如果出现警报，建议查看[排查状态检查失败的实例的问题](https://docs.amazonaws.cn/AWSEC2/latest/UserGuide/TroubleshootingInstances.html)。
+ `CLUSTER_NAME-HeadNode-Cpu`：如果 CPU 利用率超过 90%，则显示红色。如果出现警报，请使用 `ps -aux --sort=-%cpu | head -n 10` 查看占用 CPU 资源最多的进程。
+ `CLUSTER_NAME-HeadNode-Mem`：如果内存利用率超过 90%，则显示红色。如果出现警报，请使用 `ps -aux --sort=-%mem | head -n 10` 查看占用内存资源最多的进程。
+ `CLUSTER_NAME-HeadNode-Disk`：如果路径 / 上占用的磁盘空间大于 90%，则显示红色。如果出现警报，请使用 `du -h --max-depth=2 / 2> /dev/null | sort -hr` 检查占用大部分空间的文件夹。