使用 CloudWatch 监控 Data Lifecycle Manager 策略
您可以使用 CloudWatch 监控您的 Amazon Data Lifecycle Manager 生命周期策略,此工具可收集原始数据并将其处理为易读的近乎实时的指标。您可以使用这些指标来准确查看您的策略随着时间的推移创建、删除和复制了多少 Amazon EBS 快照和 EBS 支持的 AMI。还可以设置特定阈值监视警报,在达到对应阈值时发送通知或采取行动。
指标的保留期限为 15 个月,以便您可以访问历史信息,并更好地了解生命周期策略在较长时间内的表现。
有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南。
受支持的指标
Data Lifecycle Manager
命名空间包括 Amazon Data Lifecycle Manager 生命周期策略的以下指标。支持的指标因策略类型而异。
所有指标都可以在 DLMPolicyId
维度上衡量。最有用的统计工具为 sum
和 average
,并且度量单位为 count
。
选择选项卡以查看该策略类型支持的指标。
查看适用于您策略的 CloudWatch 指标
您可以使用 Amazon Web Services Management Console 或命令行工具来列出 Amazon Data Lifecycle Manager 发送给 Amazon CloudWatch 的指标。
绘制策略的指标图表
在您创建策略后,可以打开 Amazon EC2 控制台并在 Monitoring(监控)选项卡上查看策略的监控图表。每个图表以一个可用的 Amazon EC2 指标为基础。
可供使用图表指标如下:
-
资源目标已确定(基于
ResourcesTargeted
) -
快照创建已启动(基于
SnapshotsCreateStarted
) -
快照创建已完成(基于
SnapshotsCreateCompleted
) -
快照创建已失败(基于
SnapshotsCreateFailed
) -
快照共享已完成(基于
SnapshotsSharedCompleted
) -
快照删除已完成(基于
SnapshotsDeleteCompleted
) -
快照删除已失败(基于
SnapshotsDeleteFailed
) -
快照跨区域复制已启动(基于
SnapshotsCopiedRegionStarted
) -
快照跨区域复制已完成(基于
SnapshotsCopiedRegionCompleted
) -
快照跨区域复制已失败(基于
SnapshotsCopiedRegionFailed
) -
快照跨区域复制删除已完成(基于
SnapshotsCopiedRegionDeleteCompleted
) -
快照跨区域复制删除已失败(基于
SnapshotsCopiedRegionDeleteFailed
) -
快照跨账户复制已启动(基于
SnapshotsCopiedAccountStarted
) -
快照跨账户复制已完成(基于
SnapshotsCopiedAccountCompleted
) -
快照跨账户复制已失败(基于
SnapshotsCopiedAccountFailed
) -
快照跨账户复制删除已完成(基于
SnapshotsCopiedAccountDeleteCompleted
) -
快照跨账户复制删除已失败(基于
SnapshotsCopiedAccountDeleteFailed
) -
AMI 创建已开始(基于
ImagesCreateStarted
) -
AMI 创建已完成(基于
ImagesCreateCompleted
) -
AMI 创建已失败(基于
ImagesCreateFailed
) -
AMI 取消注册已完成(基于
ImagesDeregisterCompleted
) -
AMI 取消注册已失败(基于
ImagesDeregisterFailed
) -
AMI 跨区域复制已启动(基于
ImagesCopiedRegionStarted
) -
AMI 跨区域复制已完成(基于
ImagesCopiedRegionCompleted
) -
AMI 跨区域复制已失败(基于
ImagesCopiedRegionFailed
) -
AMI 跨区域取消注册已完成(基于
ImagesCopiedRegionDeregisterCompleted
) -
AMI 跨区域复制取消注册已失败(基于
ImagesCopiedRegionDeregisteredFailed
) -
AMI 启用弃用已完成(基于
EnableImageDeprecationCompleted
) -
AMI 启用弃用已失败(基于
EnableImageDeprecationFailed
) -
AMI 跨区域复制启用弃用已完成(基于
EnableCopiedImageDeprecationCompleted
) -
AMI 跨区域复制启用弃用已失败(基于
EnableCopiedImageDeprecationFailed
)
为策略创建 CloudWatch 警报
您可以创建 CloudWatch 警报来监控您的策略的 CloudWatch 指标。当该指标达到指定阈值时,CloudWatch 自动向您发送通知。您可以使用 CloudWatch 控制台创建警报。
有关使用 CloudWatch 控制台创建警报的信息,请参阅 Amazon CloudWatch 用户指南 中的下列主题。
使用案例示例
以下是使用案例示例:
示例 1:ResourcesTargeted 指标
您可以使用 ResourcesTargeted
指标来监控特定策略每次运行时所针对的资源总数。这使您能够在目标资源的数量低于或高于预期阈值时触发告警。
例如,如果您希望每日策略创建不超过 50
卷的备份,可以创建告警,该告警会在 ResourcesTargeted
的 sum
大于 50
超过 1
小时时发送电子邮件通知。通过这种方式,您可以确保没有从已错误标记的卷意外创建任何快照。
可以使用以下命令创建此告警:
$
C:\>
aws cloudwatch put-metric-alarm \ --alarm-name resource-targeted-monitor \ --alarm-description "Alarm when policy targets more than 50 resources" \ --metric-name ResourcesTargeted \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 50 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id
" \ --evaluation-periods 1 \ --alarm-actionssns_topic_arn
示例 2:SnapshotDeleteFailed 指标
您可以使用 SnapshotDeleteFailed
指标,以根据策略的快照保留规则来监控删除快照的故障情况。
例如,如果您已创建应每 12 小时自动删除一次快照的策略,则可以创建一个告警,该告警会在 SnapshotDeletionFailed
的 sum
大于 0
超过 1
小时通知您的工程团队。这有助于调查不正确的快照保留,并确保您的存储成本不会因不必要的快照而增加。
可以使用以下命令创建此告警:
$
C:\>
aws cloudwatch put-metric-alarm \ --alarm-name snapshot-deletion-failed-monitor \ --alarm-description "Alarm when snapshot deletions fail" \ --metric-name SnapshotsDeleteFailed \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 0 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id
" \ --evaluation-periods 1 \ --alarm-actionssns_topic_arn
示例 3:SnapshotsCopiedRegionFailed 指标
使用 SnapshotsCopiedRegionFailed
指标以确定您的策略何时无法将快照复制到其他区域。
例如,如果您的策略每天跨区域复制快照,则可以创建告警,该告警会在 SnapshotCrossRegionCopyFailed
的 sum
大于 0
超过 1
小时时向您的工程团队发送 SMS。这对于验证策略是否成功复制了谱系中的后续快照非常有用。
可以使用以下命令创建此告警:
$
C:\>
aws cloudwatch put-metric-alarm \ --alarm-name snapshot-copy-region-failed-monitor \ --alarm-description "Alarm when snapshot copy fails" \ --metric-name SnapshotsCopiedRegionFailed \ --namespace AWS/EBS \ --statistic Sum \ --period 3600 \ --threshold 0 \ --comparison-operator GreaterThanThreshold \ --dimensions "Name=DLMPolicyId,Value=policy_id
" \ --evaluation-periods 1 \ --alarm-actionssns_topic_arn
管理报告失败操作的策略
有关当其中一个策略报告失败操作指标的意外非零值时该怎么办的更多信息,请参阅如果 Amazon Data Lifecycle Manager 在 CloudWatch 指标中报告失败的操作,我该怎么办?