监控 Amazon Systems Manager
监控是保持 Amazon Systems Manager 和您的 Amazon 解决方案的可靠性、可用性和性能的重要方面。您应从 Amazon 解决方案的所有部分收集监控数据,以便调试出现的多点故障。在开始监控 Systems Manager 之前,您应创建一个监控计划,解决以下问题:
-
监控目的是什么?
-
您将监控哪些资源?
-
监控这些资源的频率如何?
-
您将使用哪些监控工具?
-
谁执行监控任务?
-
出现错误时应通知谁?
在定义监控目标并创建监控计划后,下一步是在您的环境中建立正常 Systems Manager 性能的基准。您应该在不同时间和不同负载条件下测量 Systems Manager 的性能。监控 Systems Manager 时,您应存储所收集的监控数据的历史记录。您可将当前 Systems Manager 性能与这些历史数据进行比较,这样可帮助您确定性能的正常模式和异常模式,找出解决问题的方法。
例如,您可以监控自动化工作流、补丁基准的应用、维护时段事件和配置合规性等操作的成功或失败。自动化是 Amazon Systems Manager 的一项功能。
您还可以监控托管式节点的 CPU 利用率、磁盘 I/O 和网络利用率。如果性能低于您所建立的基准,则您可能需要重新配置或优化节点,以降低 CPU 利用率、改进磁盘 I/O 或减少网络流量。有关监控 EC2 实例的更多信息,请参阅《Amazon EC2 用户指南》中的监控 Amazon EC2。
主题
- 监控工具
- 将节点日志发送到统一的 CloudWatch Logs(CloudWatch 代理)
- 将 SSM Agent 日志发送到 CloudWatch Logs
- 监控您的变更请求事件
- 监控您的自动化
- 使用 Amazon CloudWatch 监控 Run Command 指标
- 使用 Amazon CloudTrail 记录 Amazon Systems Manager API 调用
- 使用 CloudWatch Logs 记录自动化操作输出
- 为 Run Command 配置 Amazon CloudWatch Logs
- 使用 Amazon EventBridge 监控 Systems Manager 事件
- 使用 Amazon SNS 通知监控 Systems Manager 状态更改
监控工具
本章中的内容提供了与使用可用于监控 Systems Manager 和其他 Amazon 资源的工具有关的信息。有关工具的更完整的列表,请参阅 Amazon Systems Manager 中的日志记录和监控。