使用 CloudWatch 监控运行状况检查 - Amazon Route 53
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 CloudWatch 监控运行状况检查

Route 53 运行状况检查与 CloudWatch 指标集成,以便于您执行以下操作:

  • 验证是否已正确配置运行状况检查。

  • 查看运行状况检查在指定时间段内的状态。

  • 将 CloudWatch 配置为在运行状况检查的状态为不正常时发送 Amazon SNS 提示。请注意,可能会在运行状况检查失败的几分钟后才会收到关联的 SNS 通知。

有关更多信息,请参阅Amazon Route 53 如何确定运行状况检查是否正常

查看运行状况检查的状态 (控制台)
  1. 登录 Amazon Web Services Management Console,并通过以下网址打开 Route 53 控制台:https://console.aws.amazon.com/route53/

  2. 在导航窗格中,选择 Health Checks (运行状况检查)

  3. 选择相应运行状况检查对应的行。

  4. 在底部窗格中,选择 Monitoring (监控) 选项卡。

    这两个图表以一分钟间隔显示了上一小时的状态:

    Health check status

    该图表显示端点运行状况的 Route 53 评估。1 表示运行状况正常,0 表示运行状况不正常。

    报告端点正常的运行状态检查程序 (%)

    对于仅监控端点的运行状况检查,该图表显示了认为所选端点运行状况良好的 Route 53 运行状况检查程序的百分比。

    当运行状况检查已禁用,此指标不可用。

    Number of healthy child health checks

    仅适用于已计算的运行状况检查,该图表显示运行状况良好的子运行状况检查的数量。

    注意

    如果您选择了多个运行状况检查,图表将为每个运行状况检查显示具有不同颜色的行。

  5. 要查看更大的图表并指定不同设置,请单击图表。您可以更改以下设置:

    统计数据

    更改 CloudWatch 对数据执行的计算。

    时间范围

    显示不同时间段内的运行状况检查的状态,例如,隔夜或上周。

    Period

    更改图表中的数据点之间的间隔。

    请注意以下几点:

    • 如果您刚刚创建运行状况检查,可能需要等待几分钟时间,数据才会显示在图表上,运行状况检查指标才会显示在可用指标列表中。

    • 该图表不会自动自行刷新。要更新显示,请选择刷新 ( 
									Icon to refresh the CloudWatch graph
								) 图标。

在运行状况检查状态为运行不佳时接收 Amazon SNS 通知(控制台)
  1. 在 Route 53 控制台的导航窗格中,选择 Health Checks(运行状况检查)。

  2. 选择相应运行状况检查对应的行。

  3. 在底部窗格中,选择 Alarms (告警) 选项卡。

    该表列出了已为此运行状况检查创建的告警。

  4. 选择 Create Alarm (创建告警)

  5. 指定以下值:

    告警名称

    输入您希望 Route 53 在 Alarms(告警)选项卡上的 Name(名称)列中显示的名称。

    告警说明

    (可选)输入告警的描述。此值显示在 CloudWatch 控制台上。

    发送通知

    选择当此运行状况检查的状态触发告警时是否希望 Route 53 向您发送通知。

    通知目标(仅当“发送目标”为“Yes”时)

    如果您希望 CloudWatch 向现有 SNS 主题发送通知,请从列表中选择该主题。

    如果您希望 CloudWatch 发送通知,但不是向现有 SNS 主题发送,请执行以下操作之一:

    • 如果您希望 CloudWatch 发送电子邮件通知 — 选择 New SNS topic(新建 SNS 主题)并继续此过程。

    • 如果您希望 CloudWatch 通过其它方法发送通知 — 打开新的浏览器选项卡,转到 Amazon SNS 控制台,然后创建新主题。然后,返回到 Route 53 控制台,从 Notification target(通知目标)列表中选择新主题的名称,并继续执行此过程。

    Topic name(仅在您选择创建新 Amazon SNS 主题时适用)

    输入新 Amazon SNS 主题的名称。

    Recipient email addresses(仅在您选择创建新 Amazon SNS 主题时适用)

    输入在运行状况检查触发告警时希望 Route 53 将 SNS 通知发送到的电子邮件地址。

    告警目标

    选择您希望 Route 53 为此运行状况检查评估的值:

    • Health check status(运行状况检查状态)— Route 53 运行状况检查程序报告运行状况检查为正常或不正常

    • 报告端点运行正常的运行状况检查程序(%)—(仅监控端点的运行状况检查) 报告运行状况检查状态为正常的 Route 53 运行状况检查程序的百分比

    • Number of healthy child health checks(正常的子运行状况检查的数量)(仅限于已计算的运行状况检查)— 已计算的运行状况检查中将运行状况检查的状态报告为正常的子运行状况检查的数量

    • TCP connection time(TCP 连接时间)(仅限于 HTTP 和 TCP 运行状况检查)— Route 53 运行状况检查程序与端点建立 TCP 连接所用的时间(毫秒)

    • Time to complete SSL handshake(完成 SSL 握手的时间)—(仅限于 HTTPS 运行状况检查)Route 53 运行状况检查程序完成 SSL/TLS 握手所需的时间(毫秒)

    • Time to first type(第一个字节的时间)(仅限于 HTTP 和 HTTPS 运行状况检查)— Route 53 运行状况检查程序接收响应 HTTP 或 HTTPS 请求的第一个字节所用的时间(毫秒)

    告警目标

    对基于延迟的告警目标(TCP connection timeTime to complete SSL handshakeTime to first byte),选择您希望 CloudWatch 为特定区域还是所有区域 (Global) 中的 Route 53 运行状况检查程序计算延迟。

    请注意,如果您选择一个区域,Route 53 每分钟仅测量两次延迟,样本数将比选择所有区域时小。因此,更有可能出现离群值。为防止出现虚假告警通知,建议您指定更多的连续时间段,只有这些时间段内的运行状况检查都失败,CloudWatch 才会向您发送通知。

    满足条件

    使用以下设置可确定 CloudWatch 应在何时触发告警。

    告警目标 建议的条件 描述

    Health check status

    最小值 < 1

    当端点运行状况不佳时,Route 53 运行状况检查程序将会报告。

    报告端点正常的运行状态检查程序 (%)

    平均值 < 预期百分比

    仅监控端点的运行状况检查 — 当报告状态为正常的运行状况检查程序少于 18% 时,Route 53 将认为运行状况检查的状态为不正常。请勿选择此指标的 Sample Count(样本数),因为样本数的范围可能随 Route 53 添加更多运行状况检查区域而发生变化。平均值 将始终准确表示报告运行状况检查状态的检查程序的百分比。

    Number of healthy child health checks

    最小值 < 预期的正常子运行状况检查数

    最小值 统计数据将返回最保守的值,并表示最糟糕的情况。

    TCP connection time

    平均值 > 所需时间 (毫秒)

    平均值的值比其他统计数据更为一致。

    Time to complete SSL handshake

    平均值 > 所需时间 (毫秒)

    平均值的值比其他统计数据更为一致。

    Time to first byte

    平均值 > 所需时间 (毫秒)

    平均值的值比其他统计数据更为一致。

    连续周期至少 y 分/小时/天 x 一次

    指定在多少个连续时间段内指定的值均满足标准,Route 53 才会发送通知。然后指定时间段的长度。

  6. 当您选择 Create(创建)时,Amazon SNS 会向您发送一封电子邮件,其中包含有关新 SNS 主题的信息。

  7. 在电子邮件中,选择 Confirm subscription(确认订阅)。您必须确认订阅,才能开始接收 CloudWatch 通知。

查看 CloudWatch 告警状态和编辑 Amazon Route 53 的告警(控制台)
  1. 在 Route 53 控制台的导航窗格中,选择 Health Checks(运行状况检查)。

  2. 选择任意运行状况检查对应的行。

  3. 在详细信息窗格中(在 x 运行状况检查已选定之后),选择右边三角 ( 
							Icon to expand the list of CloudWatch alarms
						) 图标。

    CloudWatch 告警列表中包含已使用当前 Amazon 账户创建的所有 Route 53 告警。

    State (状态) 列显示每个告警的当前状态:

    确定

    CloudWatch 已从 Route 53 运行状况检查中积累了足够的统计数据,确定端点不满足告警阈值。

    INSUFFICIENT DATA

    CloudWatch 未积累足够的统计数据来确定端点是否满足告警阈值。这是新告警的初始状态。如果 CloudWatch 指标不可用,或者您删除运行状况检查而不删除关联的告警,则告警状态也将更改为 INSUFFICIENT DATA

    告警

    CloudWatch 已从 Route 53 运行状况检查中积累了足够的统计数据,确定端点满足告警阈值并向指定的电子邮件地址发送通知。

  4. 要查看或编辑告警设置,请选择告警的名称。

  5. 要在 CloudWatch 控制台中查看告警,请在该告警对应的 More Options(更多选项)列中选择 View(视图),控制台会提供有关告警的更多详细信息,例如,告警更新和状态更改的历史记录。

  6. 要查看您已使用当前 Amazon 账户创建的所有 CloudWatch 告警,包括用于其它 Amazon 服务的告警,请选择 View All CloudWatch Alarms(查看全部的 CloudWatch 告警)。

  7. 要查看所有可用的 CloudWatch 指标(包括当前 Amazon 账户目前未使用的指标),请选择 View All CloudWatch Metrics(查看全部 CloudWatch 指标)。

要使用 CloudWatch 控制台查看 Route 53 指标
  1. 登录Amazon Web Services Management Console并打开 CloudWatch 控制台,网址为 https://console.aws.amazon.com/cloudwatch/

  2. 将当前区域更改为美国东部(弗吉尼亚北部)。如果您选择其它任何区域作为当前区域,Route 53 指标将不可用。

  3. 在导航窗格中,选择 Metrics (指标)

  4. All metrics (所有指标) 选项卡上,选择 Route 53

  5. 选择 Health Check Metrics (运行状况检查指标)