对监控和警报问题进行故障排除 - Amazon Transfer Family
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对监控和警报问题进行故障排除

本节提供有关对监控和警报问题进行故障排除的信息 Amazon Transfer Family,包括 CloudWatch 指标缺失或不完整以及 EventBridge 事件缺失。

对缺失或不完整的 CloudWatch 指标进行故障排除

描述

CloudWatch 您的 Transfer Family 服务器的指标缺失、不完整或未按预期更新。

原因

指标缺失或不完整可能是由多种因素造成的:

  • 记录配置问题

  • 活动水平低,无法在预期的时间范围内生成指标

  • 查看维度或时间范围不正确的指标

解决方案

要解决 CloudWatch 指标缺失或不完整的问题,请执行以下操作:
  1. 确保已正确配置您的 Transfer Family 服务器的日志记录:

    • 在 Transfer Family 控制台中,在 “服务器详情” > “其他详细信息” > “记录角色” 下检查是否启用了日志记录

    • 因此,日志记录角色具有必要的权限和信任关系。

  2. 在 CloudWatch 控制台中查看指标时:

    • 使用正确的维度,例如服务器级别ServerId的指标

    • 调整时间范围以确保它涵盖活动时段

    • 检查你的输入是否正确 Amazon Web Services 区域

  3. 在 Transfer Family 服务器上生成测试活动,确保指标正在生成。

解决丢失 EventBridge的事件

描述

您已将亚马逊 EventBridge 规则配置为捕获 Transfer Family 事件,但事件并未发送到您的目标目的地,也未触发预期的操作。

原因

EventBridge 事件丢失可能是由以下原因造成的:

  • 事件模式配置不正确

  • 事件目标的权限问题

  • 服务限制或限制

  • 由于服务器配置,未生成事件

解决方案

要对缺失 EventBridge 的事件进行故障排除:

  1. 验证您的活动模式格式是否正确,以匹配 Transfer Family 事件:

    { "source": ["aws.transfer"], "detail-type": ["Transfer State Change"], "detail": { "serverId": ["s-1234567890abcdef0"] } }
  2. 检查您的事件目标是否具有必要的权限:

    • 对于 Lambda 目标,请确保 Lambda 函数的资源策略允许调用它 EventBridge

    • 对于 SQS 目标,请验证队列策略是否 EventBridge 允许发送消息

    • 对于 SNS 目标,请确认主题策略允许 EventBridge 向其发布内容

  3. 通过生成示例事件来测试您的规则:

    • 使用 EventBridge 控制台创建与您的模式相匹配的测试事件

    • 在你的 Transfer Family 服务器上执行应该会生成事件的操作

  4. 启用 EventBridge 规则指标以监控规则调用和失败:

    aws events put-rule --name "TransferStateChangeRule" --event-pattern '{...}' --state ENABLED --metrics-enabled
  5. 查看 CloudWatch 日志,了解与事件传送失败相关的任何错误消息