Amazon Systems Manager OpsCenter - Amazon Systems Manager
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon Systems Manager OpsCenter

OpsCenter(Amazon Systems Manager 的一项功能)提供了一个中心位置,运营工程师和 IT 专业人员可在该位置查看、调查并解决与 Amazon 资源 OpsCenter相关的操作工作项 (OpsItems),旨在缩短解决问题的平均时间,因为这些问题将会对 Amazon 资源造成影响。此 Systems Manager 功能跨服务聚合 OpsItems 并使其标准化,同时提供有关每个 OpsItem、相关 OpsItems 和相关资源的上下文调查数据。OpsCenter 还提供了可用于快速解决问题的 Systems Manager 自动化运行手册。您可以为每个 OpsItem 指定可搜索的自定义数据。您还可以按状态和源查看自动生成的 OpsItems 相关摘要报告。要开始使用 OpsCenter,请打开 Systems Manager 控制台。在导航窗格中,选择 OpsCenter

OpsCenter 已与 Amazon EventBridge 和 Amazon CloudWatch 集成。因此,您可以对这些服务进行配置,以便在 CloudWatch 警报进入 ALARM 状态时或者在 EventBridge 处理来自发布事件中的任何 Amazon Web Service的事件时,自动在 OpsCenter 中创建 OpsItem。通过配置 CloudWatch 告警和 EventBridge 事件以自动创建 OpsItems,使您可以在单个控制台中快速诊断和修正 Amazon 资源的问题。

为了帮助您诊断问题,每个 OpsItem 均包含上下文相关信息,例如生成 OpsItem 的 Amazon 资源名称和 ID、告警或事件详细信息、告警历史记录和告警时间线图。

对于 Amazon 资源,OpsCenter 可汇集来自 Amazon Config、Amazon CloudTrail 日志和 Amazon CloudWatch Events 的信息,因此您在调查期间不必浏览多个控制台页面。

以下列表包含 Amazon 资源和指标的类型,客户可为其配置创建 OpsItems 的 CloudWatch 告警。

  • Amazon DynamoDB:数据库读取和写入操作达到阈值

  • Amazon EC2:CPU 使用率达到阈值

  • Amazon 账单:预估费用达到阈值

  • Amazon EC2:实例未能通过状态检查

  • Amazon Elastic Block Store (EBS):磁盘空间使用率达到阈值

以下列表包含客户配置用于创建 OpsItems 的 EventBridge 规则类型。

  • Amazon Security Hub:发出安全提示

  • DynamoDB:节流事件

  • Amazon EC2 Auto Scaling:启动实例失败

  • Systems Manager:运行自动化失败

  • Amazon Health:计划维护提示

  • EC2:实例状态从 Running 更改为 Stopped

OpsCenter 还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 进行集成。因此,您可以为应用程序中检测到的问题自动创建 OpsItems。您也可以集成 OpsCenter 与 Amazon Security Hub,以便在 Systems Manager 中汇集安全性、性能和操作问题并采取措施。

运营工程师和 IT 专业人员可以使用 Amazon Systems Manager 控制台中的 OpsCenter 页面、公有 API 操作、Amazon Command Line Interface (Amazon CLI)、Amazon Tools for Windows PowerShell 或 Amazon SDK,以创建、查看和编辑 OpsItems。OpsCenter 公有 API 操作还支持将 OpsCenter 与您的案例管理系统和运行状况控制面板集成。

OpsCenter 集成

下表介绍了 OpsCenter 与其他 Amazon Web Services和 Systems Manager 功能集成的方法。OpsCenter 与这些服务和功能集成后,可帮助您在单个控制台中快速诊断和修正与 Amazon 资源相关的问题。

服务或功能 详细信息 如需更多

EventBridge

您可以对 Amazon EventBridge 进行配置,以在系统处理来自发布事件的任何 Amazon Web Service的事件时,自动在 OpsCenter 中创建 OpsItem。以下列表包含您可以配置用于创建 OpsItems 的 Eventbridge 规则类型:

  • Amazon Security Hub:发出安全提示

  • Amazon DynamoDB:节流事件

  • Amazon EC2 Auto Scaling:启动实例失败

  • Systems Manager:运行自动化失败

  • Amazon Health:计划维护提示

  • Amazon Elastic Compute Cloud (Amazon EC2):实例状态从 Running 更改为 Stopped

为了帮助您诊断问题,每个 OpsItem 均包含有关事件的上下文相关信息,例如生成 OpsItem 的 Amazon 资源名称和 ID 以及事件详细信息。

配置 Eventbridge 以针对特定事件自动创建 OpsItems

CloudWatch

您可以将 Amazon CloudWatch 配置为当 CloudWatch 告警进入 ALARM (告警) 状态时,自动在 OpsCenter 中创建 OpsItem。以下列表包含 Amazon 资源和指标的类型,您可为其配置创建 OpsItems 的 CloudWatch 告警。

  • DynamoDB:数据库读取和写入操作达到阈值

  • Amazon EC2:CPU 使用率达到阈值

  • Amazon Billing and Cost Management:预估费用达到阈值

  • Amazon EC2:实例未能通过状态检查

  • Amazon Elastic Block Store (Amazon EBS):磁盘空间使用率达到阈值

为了帮助您诊断问题,每个 OpsItem 均包含有关告警的上下文相关信息,例如生成 OpsItem 的 Amazon 资源名称和 ID、告警详细信息、告警历史记录和告警时间线图。

配置 CloudWatch 以通过告警创建 OpsItems

Incident Manager

Amazon Incident Manager 是 Systems Manager 的一项功能,提供事件管理控制台以帮助缓解影响您的 Amazon 托管应用程序的事件并从中恢复。事件是指任何计划外的服务中断或质量下降。设置并配置 Incident Manager 后,当在 Incident Manager 中创建事件时,系统会自动在 OpsCenter 中创建 OpsItems。您还可以手动将事件添加到 OpsItem。

在事件解决后,事件后分析将指导您确定事件响应的改进措施,并给出操作项建议,以解决调查结果。对于诸如事件等严重性级别高的操作问题,在 OpsCenter 中创建 OpsItem 可让操作人员全面了解事件、分析和操作项。全面了解这些方面的内容,可缩短解决问题的时间,并有助于缓解未来出现的类似问题。

在 OpsCenter 中使用 Incident Manager 事件

Amazon Systems Manager Incident Manager 用户指南

适用于 .NET 和 SQL Server 的 CloudWatch Application Insights。

OpsCenter 还与适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 集成。CloudWatch Application Insights 可帮助您监控使用 Amazon EC2 实例以及其他应用程序资源的应用程序。此功能可在应用程序资源和技术堆栈中指定并设置关键指标、日志和告警。此功能还可以为检测到的问题创建自动化控制面板。控制面板包含关联的指标异常情况、日志错误和其他信息,可帮助您确定错误的根本原因。在 CloudWatch Application Insights 中配置应用程序资源时,可以选择让系统在检测到问题时在 OpsCenter 中创建 OpsItems。

《Amazon CloudWatch 用户指南》中的设置应用程序

对于自动生成 OpsItem 的每个 Amazon 资源,OpsCenter 汇集了来自 Amazon Config、Amazon CloudTrail 日志和 EventBridge 的信息。因此,您在调查期间不必浏览多个控制台页面。

我的组织如何从 OpsCenter 获益?

对于查看、处理和修正与 Amazon 资源相关的问题,OpsCenter 提供了标准和统一的体验。标准和统一的体验可以缩短解决问题、调查相关问题以及培训新的运营工程师和 IT 专业人员所需的时间。标准和统一的体验还减少了输入管理和修复问题的系统中的手动错误的数量。

更具体地说,OpsCenter 为运营工程师和组织提供以下好处:

  • 您不再需要浏览多个控制台页面来查看、调查和解决与 Amazon 资源相关的 OpsItems。OpsItems 跨服务聚合在一个中心位置。

  • 您可以查看与 OpsItems 相关的特定服务数据和上下文相关数据,这些数据由 CloudWatch 告警、EventBridge 事件以及适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 自动生成。

  • 您可以指定与 OpsItem 相关的资源的 Amazon Resource Name (ARN)。通过指定相关资源,OpsCenter 可使用内置逻辑来帮助您避免创建重复的 OpsItems。

  • 您可以查看有关类似 OpsItems 的详细信息和分辨率信息。

  • 您可以快速查看并运行有关 Systems Manager 自动化运行手册的信息,以解决问题。

OpsCenter 具有哪些功能?

  • 自动化和手动 OpsItem 创建

    OpsCenter 已与 Amazon CloudWatch 集成。因此,您可以对 CloudWatch 进行配置,以在任何报警进入ALARM状态或 Amazon EventBridge 处理来自发布事件的任何 Amazon Web Service的事件时,自动在 OpsCenter 中创建 OpsItem。您还可以手动创建 OpsItems。

    OpsCenter 还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 进行集成。因此,您可以为应用程序中检测到的问题自动创建 OpsItems。

  • 详细的且可搜索的 OpsItems

    每个 OpsItem 包含多个信息字段,包括标题、ID、优先级、描述、OpsItem 的源以及该源的上次更新日期/时间。每个 OpsItem 还包括以下可配置的功能:

    • 状态:“打开”、“正在进行中”、“已解决”或“打开且正在进行中”。

    • 相关资源:相关资源是指受影响的资源或已启动创建 OpsItem 的 EventBridge 事件的资源。每个 OpsItem 均包含一个相关资源部分,其中 OpsCenter 自动列出了相关资源的 Amazon Resource Name (ARN)。您也可以手动指定相关资源的 ARN。对于一些 ARN 类型,OpsCenter 会自动创建一个深层链接,您可通过该链接查看有关此资源的详细信息,而无需访问其他控制台页面来查看此类信息。例如,如果您指定 EC2 实例的 ARN,则可以在 OpsCenter 中查看 EC2 提供的有关该实例的所有详细信息。您可以手动添加额外的相关资源的 ARN。每个 OpsItem 可以列出最多 100 个相关资源 ARN。有关更多信息,请参阅 使用相关资源

    • 相关和相似 OpsItems:借助相关 OpsItems 功能,您可以指定在某些方面与当前 OpsItem 相关的 OpsItems 的 ID。相似 OpsItem 功能将自动审查 OpsItem 标题和描述,然后列出可能与您相关或您感兴趣的其他 OpsItems。

    • 可搜索的私有操作数据:操作数据是一种自定义数据,该数据提供了有关 OpsItem 的有用参考详细信息。例如,您可以指定日志文件、错误字符串、许可密钥、故障排除提示或其他相关数据。请以键/值对的形式输入操作数据。密钥的最大长度为 128 个字符。值最大为 20 KB 大小。

      此自定义数据是可搜索的,但有限制。对于 Searchable operational data (可搜索的操作数据) 功能,所有有权访问 OpsItem概览页面(由 DescribeOpsItems API 操作提供)的用户都可以查看和搜索指定的数据。对于 Private operational data (私有操作数据) 功能,数据仅可供有权访问 OpsItem(由 GetOpsItem API 操作提供)的用户查看。

    • 重复数据删除:通过指定相关资源,OpsCenter 可使用内置逻辑来帮助您避免创建重复的 OpsItems。OpsCenter 还包括一项名为 操作洞察 的功能,可显示有关 OpsItems 的重复信息。要进一步限制账户中重复的 OpsItems 的数量,您可以为 EventBridge 事件规则手动指定重复数据删除字符串。有关更多信息,请参阅减少重复的 OpsItems

  • 批量编辑 OpsItems:您可以在 OpsCenter 中选择多个 OpsItems,然后编辑以下字段之一:Status(状态)、Priority(优先级)、Severity(严重性)、Category(类别)。

  • 使用运行手册轻松修正

    每个 OpsItem 均包含一个 Runbooks (运行手册) 部分以及一个 Systems Manager 自动化运行手册列表,您可使用这些运行手册自动修正与 Amazon 资源相关的常见问题。如果您打开 OpsItem,请为该 OpsItem 选择 Amazon 资源,然后在控制台中选择 Run automation(运行自动化)按钮,则 OpsCenter 会提供一个自动化运行手册列表,以供您在生成 OpsItem 的 Amazon 资源中运行这些运行手册。从 OpsItem 运行自动化运行手册后,运行手册将自动与该 OpsItem 的相关资源关联以供将来参考。此外,如果您通过使用 OpsCenter 在 EventBridge 中自动设置 OpsItem 规则,则 EventBridge 将自动关联常见事件的运行手册。OpsCenter 为特定的 OpsItem 保存 30 天的 自动化运行手册记录。有关更多信息,请参阅 使用 Systems Manager 自动化修正 OpsItem 问题

  • 更改通知:您可以指定 Amazon Simple Notification Service (SNS) 主题的 ARN 并在更改或编辑 OpsItem 时随时发布通知。SNS 主题必须位于与 OpsItem 相同的 Amazon Web Services 区域中。

  • 全面的 OpsItem 搜索功能:OpsCenter 提供多个搜索选项来帮助您快速找到 OpsItems。以下是几个搜索方式的示例:OpsItem ID、标题、上次修改时间、操作数据值、源和运行手册执行的自动化 ID(仅举几例)。您可以使用状态筛选器进一步限制搜索结果。

  • OpsItem 摘要报告

    OpsCenter 包含一个摘要报告页面,此页面显示以下部分:

    • 状态摘要:按状态(“打开”、“正在进行中”、“已解决”和“打开且正在进行中”)显示的 OpsItems 摘要。

    • Sources with most open OpsItems(具有最多打开的 OpsItems 的源):具有最多打开的 OpsItems 的 Amazon Web Services明细。

    • OpsItems by source and age (按源和使用期限显示的 &OIS;):按源和创建天数分组的 OpsItems 的计数。

    有关查看 OpsCenter 摘要报告的更多信息,请参阅 查看 OpsCenter 摘要报告

  • IAM 访问控制

    通过使用 Amazon Identity and Access Management (IAM) 策略,您可以控制组织的哪些成员可以创建、查看、列出和更新 OpsItems。您还可以将标签分配给 OpsItems,然后创建 IAM policy,之后它将根据标签向用户和小组授予访问权限。有关更多信息,请参阅 OpsCenter 入门

  • 支持日志记录和审计功能

    您可以通过与其他 Amazon Web Services集成来审计和记录您的 Amazon Web Services 账户中的 OpsCenter 用户操作日志。有关更多信息,请参阅审计和记录 OpsCenter 活动

  • 支持通过控制台、CLI、PowerShell 和开发工具包等方式访问 OpsCenter 功能

    您可以通过 Amazon Systems Manager 控制台、Amazon Command Line Interface (Amazon CLI)、Amazon Tools for PowerShell 或您选择的 Amazon SDK 来使用 OpsCenter。

如何将 OpsCenter 与 Amazon EventBridge 结合使用? 我应该使用哪种服务?

Amazon EventBridge 提供近乎实时的系统事件流,这些系统事件描述了 Amazon 资源的更改。通过使用可快速设置的简单规则,您可以匹配事件并将事件路由到一个或多个目标函数或流。一般来说,资源出现问题时,EventBridge 会通知您。

OpsCenter 帮助您调查和修正问题。OpsCenter 汇集了 EventBridge 中的数据或工程师手动输入的数据,以便工程师能够进行彻底的调查。OpsCenter 还提供了自动化运行手册,以便快速修正这些问题。OpsCenter 通过允许您自动创建 OpsItems(您也可以手动创建 OpsItems)来解决以下类型的问题:性能下降、状态更改、执行失败、维护通知和安全警报,从而与 EventBridge 集成。

OpsCenter 是否与我的现有案例管理系统集成?

OpsCenter 旨在补充您的现有案例管理系统。您可以使用公有 API 操作将 OpsItems 集成到您的现有案例管理系统中。您还可以维护当前系统中的手动生命周期工作流程,并使用 OpsCenter 作为调查和修正中心。

有关 OpsCenter 公有 API 操作的信息,请参阅《Amazon Systems Manager API 参考》中的以下 API 操作。

使用 OpsCenter 是否需要支付费用?

是。有关更多信息,请参阅 Amazon Systems Manager 定价

OpsCenter 是否使用我的本地和混合托管式节点?

是。若问题与为 Systems Manager 配置的本地托管式节点相关,您可以使用 OpsCenter 来调查和修正这些问题。有关为 Systems Manager 设置和配置本地服务器和虚拟机的更多信息,请参阅 为混合环境设置 Amazon Systems Manager

OpsCenter 的配额是多少?

您可以在《Amazon Web Services 一般参考》中的 Systems Manager Service Quotas 中查看所有 Systems Manager 功能的配额。除非另有说明,否则,每个配额是区域特定的。