集群警报 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

集群警报

集群运行状况监控对于确保最佳性能至关重要。 Amazon ParallelCluster 使您能够监控集群头节点 CloudWatch 的多个警报。

本节提供每种类型的头节点集群警报的详细信息,包括其命名约定、触发警报的特定条件以及建议的故障排除步骤。

例如,集群警报的命名约定是CLUSTER_NAME-COMPONENT-METRICmycluster-HeadNode-Cpu

  • CLUSTER_NAME-HeadNode: 表示头节点的整体状态。如果以下至少有一个警报是,则显示为红色。

  • CLUSTER_NAME-HeadNode-Health: 如果至少有一次 EC2 Health Check 失败,则为红色。如果出现警报,我们建议您查看状态检查失败的实例疑难解答

  • CLUSTER_NAME-HeadNode-Cpu: 如果 CPU 利用率大于 90%,则为红色。如果出现警报,请检查消耗 CPU 最多的进程ps -aux --sort=-%cpu | head -n 10

  • CLUSTER_NAME-HeadNode-Mem:如果内存利用率大于 90%,则为红色。如果出现警报,请检查消耗内存最多的进程ps -aux --sort=-%mem | head -n 10

  • CLUSTER_NAME-HeadNode-Disk: 如果路径上占用的磁盘空间大于 90% /则为红色。如果出现警报,请检查占用大部分空间的文件夹du -h --max-depth=2 / 2> /dev/null | sort -hr