Amazon Systems Manager 中的日志记录和监控 - Amazon Systems Manager
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Systems Manager 中的日志记录和监控

监控是保持 Amazon Systems Manager 和您的 Amazon 解决方案的可靠性、可用性和性能的重要方面。您应该从 Amazon 解决方案的各个部分收集监控数据,以便在发生多点故障时进行更多的调试。Amazon 提供了多种工具来监控您的 Systems Manager 和其他资源,并对潜在事件做出响应。

Amazon CloudTrail 日志

CloudTrail 提供了用户、角色或 Amazon Web Service在 Systems Manager 中所执行操作的记录。使用 CloudTrail 收集的信息,您可以确定向 Systems Manager 发出了什么请求、发出请求的 IP 地址、何人发出的请求、请求的发出时间以及其他详细信息。有关更多信息,请参阅使用记录 Amazon Systems Manager API 调用 Amazon CloudTrail

Amazon CloudWatch 警报

使用 Amazon CloudWatch 告警,您可以在为 Amazon Elastic Compute Cloud (Amazon EC2) 实例和其他资源指定的时间段内监控某个指标。如果指标超过给定阈值,则会向 Amazon Simple Notification Service (Amazon SNS) 主题或 Amazon Auto Scaling 策略发送通知。CloudWatch 告警将不会调用操作,因为这些操作处于特定状态。而是必须在状态已改变并在指定的若干个时间段内保持不变后才调用。有关更多信息,请参阅《Amazon CloudWatch 用户指南》中的使用 Amazon CloudWatch 告警

Amazon CloudWatch 控制面板

CloudWatch 控制面板是 CloudWatch 控制台中的可自定义主页,可用于在单一视图中监控资源,即便是分布到不同 Amazon Web Services 区域的资源,也能对其进行监控。您可以使用 CloudWatch 控制面板创建 Amazon 资源的指标和告警的自定义视图。有关更多信息,请参阅由 Systems Manager 托管的 Amazon CloudWatch 控制面板

Amazon EventBridge

使用 Amazon EventBridge,您可以配置规则以提示您 Systems Manager 资源中的更改,并指示 EventBridge 根据这些事件的内容执行操作。EventBridge 提供对由各种 Systems Manager 功能发出的大量事件的支持。有关更多信息,请参阅使用 Amazon EventBridge 监控 Systems Manager 事件

Amazon CloudWatch Logs 和 SSM Agent 日志

SSM Agent 将有关执行、计划操作、错误和运行状况的信息写入每个节点上的日志文件。您可以通过手动连接到节点来查看日志文件。我们建议将代理日志数据自动发送到 CloudWatch Logs 中的日志组以进行分析。有关更多信息,请参阅 将节点日志发送到统一 CloudWatch 日志(CloudWatch 代理)查看 SSM Agent 日志

Amazon Systems Manager Compliance

您可以使用 Compliance(Amazon Systems Manager 的一项功能)扫描托管式节点机群,了解补丁合规性和配置不一致性。您可以从多个 Amazon Web Services 账户 和 Amazon Web Services 区域 中收集并聚合数据,然后深入了解不合规的特定资源。默认情况下,Compliance 会在 Patch Manager(Amazon Systems Manager 的一项功能)中显示有关修补的当前合规性数据,并在 State Manager(Amazon Systems Manager 的一项功能)中显示关联。有关更多信息,请参阅Amazon Systems Manager Compliance

Amazon Systems Manager Explorer

Explorer(Amazon Systems Manager 的一种功能)是一个可自定义的操作控制面板,用于报告有关 Amazon 资源的信息。Explorer 将显示您的 Amazon Web Services 账户 和不同 Amazon Web Services 区域 的操作数据 (OpsData) 的聚合视图。在 Explorer 中,OpsData 包含有关 EC2 实例、补丁合规性详细信息和操作工作项 (OpsItems) 的元数据。Explorer 提供有关如何在业务单位或应用程序之间分配 OpsItems、它们随时间的变化趋势以及它们如何随类别变化的上下文。您可以在 Explorer 中对信息进行分组和筛选,以将重点放在与您相关的项目和需要采取措施的项目上。有关更多信息,请参阅Amazon Systems Manager Explorer

Amazon Systems Manager OpsCenter

OpsCenter(Amazon Systems Manager 的一项功能)提供了一个中心位置,运营工程师和 IT 专业人员可以在此处查看、调查和解决与 Amazon 资源相关的操作工作项 (OpsItems)。OpsCenter 聚合并标准化各种服务的 OpsItems,同时提供有关每个 OpsItem、相关 OpsItems 以及相关资源的上下文调查数据。OpsCenter 还在 自动化(Amazon Systems Manager 的一项功能)中提供运行手册,可用于快速解决问题。OpsCenter 已与 Amazon EventBridge 集成。因此,您可以创建 EventBridge 规则,从而为发布事件到 EventBridge 的任何 Amazon Web Service自动创建 OpsItems。有关更多信息,请参阅Amazon Systems Manager OpsCenter

Amazon Simple Notification Service

您可以将 Amazon Simple Notification Service (Amazon SNS) 配置为发送与使用 Run Command 或 Maintenance Windows(均为 Amazon Systems Manager 的功能)发送的命令的状态有关的通知。Amazon SNS 协调并管理向订阅 Amazon SNS 主题的客户端或端点发送和传输通知。您可以在命令更改为新状态或特定状态(例如 FailedTimed Out)时收到通知。如果您将一条命令发送给多个节点,则对于发送给特定节点的命令的每个副本,您都可以收到通知。有关更多信息,请参阅使用 Amazon SNS 通知监控 Systems Manager 状态更改

Amazon Trusted Advisor 和 Amazon Health Dashboard

Trusted Advisor 凝聚了从为数十万 Amazon 客户提供服务中总结的最佳实践。Trusted Advisor 可检查您的 Amazon 环境,然后​在有可能节省开支、提高系统可用性和性能或弥补安全漏洞时为您提供建议。所有 Amazon 客户均有权访问五个 Trusted Advisor 检查。使用 Amazon Web Services Support 商业或企业计划的客户可以查看所有 Trusted Advisor 检查。有关更多信息,请参阅《Amazon Web Services Support 用户指南》和《Amazon Health 用户指南》中的 Amazon Trusted Advisor