统一运营入门:加入关键警报以实现快速事件管理 - Amazon Web Services 支持
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

统一运营入门:加入关键警报以实现快速事件管理

为了帮助您快速通知您重大事件,请完成以下步骤,将警报加入 Amazon 事件检测和响应

  1. 定义和配置您的关键警报,以实现快速事件管理。有关详细信息,请参阅《事件检测和响应用户指南》中的 “事件检测和响应” 中的定义和配置警报

    1. 有关使用 Amazon 设置警报的步骤 CloudWatch,请参阅《事件检测和响应用户指南》中的 “事件检测和响应” 中的定义和配置警报。有关各种关键警报类型的 Amazon 建议 Amazon Web Services 服务,请参阅事件检测和响应 (IDR)。如果您想自动 Amazon 为已标记的 Amazon 资源创建关键 Amazon 警报,请联系您的 Amazon 统一运营团队。

    2. 要重定向或接收来自直接与 Amazon EventBridge 集成的第三方 APM 工具(例如、等)的关键警报 DataDog NewRelic,请参阅《Amazon 事件检测和响应用户指南》中的 “从 APMs 与亚马逊直接集成的警报” EventBridge 中获取与亚马逊直接集成的警报。您必须部署一组 Amazon 资源(Amazon Lambda 和 Amazon EventBridge 事件总线规则)来转换警报(事件)并将其重定向到 Amazon 事件检测和响应。您的 Amazon 统一运营团队可以帮助提供安装这些资源的 Amazon CloudFormation 模板。

    3. 通过未与 Amazon 直接集成的第三方 APM 工具(例如 EventBridge、等)从您的自定义监控工具重定向或接收 DataDog关键警报。 NewRelic有关更多信息,请参阅《Amazon 事件检测和响应用户指南》 EventBridge中的 “接收与 Amazon 直接集成的警报”。 APMs 您必须部署一组 Amazon 资源(API Gateway Amazon Lambda 函数和 Amazon EventBridge 事件总线规则)来转换警报(事件)并将其重定向到 Amazon 事件检测和响应。您的 Amazon 统一运营团队可以帮助提供安装这些资源的 Amazon CloudFormation 模板。

  2. 提供工作负载架构详细信息、联系人信息以及有关关键警报缓解措施的运行手册信息。为此,请完成以下步骤:

    1. 下载并填写每个关键工作负载或应用程序Amazon 的事件检测和响应工作负载入职调查表,以及与每个独特工作负载相关的警报摄取调查表

      这些问卷中的信息可帮助 Amazon 团队制定事件补救操作手册。通过本操作手册,可以采取适当的措施,在关键警报导致业务停机之前对其进行快速故障排除和修复。有关示例和示例信息,请参阅Amazon 事件检测和响应中的工作负载入和警报摄取问卷

  3. 为 Amazon 事件检测和响应提供机载关键警报的访问权限

    1. 在 Amazon Web Services 账户 运行关键工作负载时部署AWSServiceRoleForHealth_EventProcessor服务相关角色 (SLR),由 Amazon 事件管理团队进行监控。有关更多信息,请参阅为 Amazon 事件检测和响应提供警报接收权限

      注意

      为了帮助你完成大规模的入职培训 Amazon Web Services 账户, Amazon 可以为你提供一个 Amazon Command Line Interface 脚本来快速跟踪这款 SLR 的配置。

    2. (可选)如果您的警报在 Amazon CloudWatch 中,请确保用于警报测试(上线前)的 Amazon Identity and Access Management 用户或角色在运行关键工作负载的用户或角色中拥有 cloudwatch:SetAlarmState IAM 权限。 Amazon Web Services 账户 这是入职后的警报测试(比赛日)所必需的。有关更多信息,请参阅Amazon 事件检测和响应中的测试已加载的工作负载

  4. 创建 Amazon Web Services 支持 案例以订阅工作负载,以实现快速事件管理。请注意,您的 Amazon Web Services 账户 入站快速事件管理已自动启用,这意味着您可以通过 Support Center Console、或 Amazon SDK 向统一运营事件检测和响应队列提出案例 Amazon Command Line Interface,以便快速采取行动。 Amazon 要主动监控出站 Amazon Web Services 支持 案例并创建事件,请为您的关键工作量创建 Amazon Web Services 支持 案例。为此,请完成以下步骤:

    1. 登录 Amazon Support Center Console,选择 “创建案例”,然后选择 “技术支持”。

    2. 对于 “服务”,选择 “事件检测和响应”。

    3. 对于类别,选择载入新工作负载

    4. 对于 “严重性”,选择 “一般指导”。

    5. 附上您在上一步中填写的工作量和警报调查表。