自动和手动监控 - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

自动和手动监控

Amazon提供各种可以用来监控 Amazon EC2 的工具。您可以配置其中的一些工具来为您执行监控任务,但有些工具需要手动干预。

自动监控工具

您可以使用以下自动化监控工具来查看 Amazon EC2 并在出现错误时向您报告:

  • 系统状态检查 – 监控使用您的实例所需的Amazon系统,以确保这些系统正常工作。这些检查会检测出需要 Amazon 参与修复的实例问题。当一个系统状态检查故障时,您可以等待 Amazon 修复故障,或者您也可以亲自解决该故障(例如,通过停止和重启或终止和替换实例)。导致系统状态检查出现故障的问题示例包括:

    • 网络连接丢失

    • 系统电源损耗

    • 物理主机上的软件问题

    • 物理主机上影响到网络连接状态的硬件问题

    有关更多信息,请参阅实例的状态检查

  • 实例状态检查 – 监控各个实例的软件和网络配置。这些检查检测需要您参与修复的问题。一旦发生实例状态检查故障,一般需要都您亲自解决这些问题(例如,通过重启实例或者在您的操作系统中进行修改)。可能导致实例状态检查出现故障的问题示例包括:

    • 系统状态检查故障

    • 网络或启动配置错误

    • 内存耗尽

    • 文件系统损坏

    • 内核不兼容

    有关更多信息,请参阅实例的状态检查

  • Amazon CloudWatch 警报 – 在您指定的时间段内监控单个指标,并根据指标值在一些时间段内与给定阈值的对比情况执行一个或多个操作。操作是一个发送到 Amazon Simple Notification Service (Amazon SNS) 主题或 Amazon EC2 Auto Scaling 策略的通知。警报只会调用操作进行持续的状态变更。CloudWatch 警报将不会调用操作,因为这些操作处于特定状态,该状态必须改变并在指定数量的时间段内一直保持。有关更多信息,请参阅使用 CloudWatch 监控您的实例

  • Amazon EventBridge – 自动执行Amazon服务并自动响应系统事件。Amazon服务中的事件将近实时传输到 EventBridge,并且您可以指定要在事件匹配您编写的规则时执行的自动操作。有关更多信息,请参阅什么是 Amazon EventBridge?

  • Amazon CloudWatch Logs – 监控、存储和访问来自 Amazon EC2 实例、Amazon CloudTrail 或其他来源的日志文件。有关更多信息,请参阅 Amazon CloudWatch Logs 用户指南

  • CloudWatch 代理 – 从 EC2 实例和本地服务器上的主机和访客中收集日志和系统级指标。有关更多信息,请参阅 Amazon CloudWatch 用户指南 中的使用 CloudWatch 代理从 Amazon EC2 实例和本地服务器中收集指标和日志

手动监控工具

监控 Amazon EC2 的另一重要部分需要手动监控一些项目,监控脚本、状态检查和 CloudWatch 警报并不考察这些项目的指标。Amazon EC2 和 CloudWatch 控制台控制面板提供您的 Amazon EC2 环境状态的概览视图。

  • Amazon EC2 控制面板显示:

    • 按区域显示服务运行状况和计划的事件

    • 实例状态

    • 状态检查

    • 警报状态

    • 实例指标详细信息(在导航窗格中,选择 Instances (实例) 以选择一个实例,然后选择 Monitoring (监控) 选项卡)

    • 卷指标详细信息(在导航窗格中,选择 Volumes (卷) 以选择一个卷,然后选择 Monitoring (监控) 选项卡)

  • Amazon CloudWatch 控制面板显示:

    • 当前警报和状态

    • 告警和资源图表

    • 服务运行状况

    此外,您还可以使用 CloudWatch 执行以下操作:

    • 将 Amazon EC2 监控数据绘制成图表以排除问题和发现趋势

    • 搜索并浏览您所有的 Amazon 资源指标

    • 创建和编辑警报以接收有关问题的通知

    • 一目了然地查看您的警报和 Amazon 资源的概览信息