监控 Amazon Systems Manager - Amazon Systems Manager
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 Amazon Systems Manager

监控是保持 Amazon Systems Manager 和您的 Amazon 解决方案的可靠性、可用性和性能的重要方面。您应从 Amazon 解决方案的所有部分收集监控数据,以便调试出现的多点故障。在开始监控 Systems Manager 之前,您应创建一个监控计划,解决以下问题:

  • 监控目的是什么?

  • 您将监控哪些资源?

  • 监控这些资源的频率如何?

  • 您将使用哪些监控工具?

  • 谁执行监控任务?

  • 出现错误时应通知谁?

在定义监控目标并创建监控计划后,下一步是在您的环境中建立正常 Systems Manager 性能的基准。您应该在不同时间和不同负载条件下测量 Systems Manager 的性能。监控 Systems Manager 时,您应存储所收集的监控数据的历史记录。您可将当前 Systems Manager 性能与这些历史数据进行比较,这样可帮助您确定性能的正常模式和异常模式,找出解决问题的方法。

例如,您可以监控自动化工作流、补丁基准的应用、维护时段事件和配置合规性等操作的成功或失败。自动化是 Amazon Systems Manager 的一项功能。

您还可以监控托管式节点的 CPU 利用率、磁盘 I/O 和网络利用率。如果性能低于您所建立的基准,则您可能需要重新配置或优化节点,以降低 CPU 利用率、改进磁盘 I/O 或减少网络流量。有关监控 EC2 实例的更多信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的监控 Amazon EC2

监控工具

本章中的内容提供了与使用可用于监控 Systems Manager 和其他 Amazon 资源的工具有关的信息。有关工具的更完整的列表,请参阅 Amazon Systems Manager 中的日志记录和监控