本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
集群指标的 Amazon CloudWatch 警报
从 Amazon ParallelCluster 版本 3.6 开始,您可以将集群配置为使用 Amazon CloudWatch 警报来监控头节点。一个警报监控根卷 disk_used_percent
,另一个警报监控 mem_used_percent
指标。有关更多信息,请参阅《Amazon CloudWatch 用户指南》中的 CloudWatch 代理收集的指标。
警报按以下方式命名:
-
cluster-name
_DiskAlarm_HeadNode -
cluster-name
_MemAlarm_HeadNode
cluster-name
是集群的名称。
在导航窗格中选择警报,即可在 CloudWatch 控制台中访问警报。下图显示了集群的磁盘使用率警报和内存使用率警报。
当 1 个数据点的磁盘使用率百分比在 1 分钟时间段内超过 90% 时,磁盘使用率警报就会处于 ALARM
状态。
当 1 个数据点的内存使用率百分比在 1 分钟时间段内超过 90% 时,内存使用率警报就会处于 ALARM
状态。
注意
Amazon ParallelCluster 默认情况下不配置警报操作。有关如何设置警报操作(例如发送通知)的信息,请参阅警报操作。有关 Amazon CloudWatch 警报的更多信息,请参阅 Amazon CloudWatch 用户指南 中的使用 Amazon CloudWatch 警报。
如果您不想创建这些 Amazon CloudWatch 警报,请在集群配置中将 Monitoring/Dashboards/CloudWatch/Enabled 设置为 false
,从而停用这些警报。这也将禁用 Amazon CloudWatch 控制面板的创建。有关更多信息,请参阅 亚马逊 CloudWatch 控制面板。
注意
如果您停用 Amazon CloudWatch 控制面板的创建,则还会对集群停用 Amazon CloudWatch disk_used_percent
和 memory_used_percent
警报。