Amazon Systems Manager OpsCenter - Amazon Systems Manager
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Systems Manager OpsCenter

OpsCenter(Amazon Systems Manager 的一项功能)提供了一个中心位置,运营工程师和 IT 专业人员可以在此处查看、调查和解决与 Amazon 资源相关的操作工作项(OpsItems)。OpsCenter 旨在缩短影响 Amazon 资源的问题的平均解决时间。OpsCenter 聚合并标准化各种服务的 OpsItems,同时提供有关每个 OpsItem、相关 OpsItems 以及相关资源的上下文调查数据。OpsCenter 还提供 Systems Manager 自动化运行手册,可用于快速解决问题。您可以为每个 OpsItem 指定可搜索的自定义数据。您还可以按状态和源查看自动生成的 OpsItems 相关摘要报告。要开始使用 OpsCenter,请打开 Systems Manager 控制台。在导航窗格中,选择 OpsCenter

OpsCenter 已与 Amazon EventBridge 和 Amazon CloudWatch 集成。所以,您可以配置这些服务,以便当 CloudWatch 告警进入 ALARM 状态时或者当 EventBridge 处理发布事件中的 Amazon 服务的事件时,自动在 OpsCenter 中创建 OpsItem。通过配置 CloudWatch 告警和 EventBridge 事件以自动创建 OpsItems,使您可以在单个控制台中快速诊断和修正 Amazon 资源的问题。

为了帮助您诊断问题,每个 OpsItem 均包含上下文相关信息,例如生成 OpsItem 的 Amazon 资源名称和 ID、告警或事件详细信息、告警历史记录和告警时间线图。

对于 Amazon 资源,OpsCenter 可汇集来自 Amazon Config、Amazon CloudTrail 日志和 Amazon CloudWatch Events 的信息,因此您在调查期间不必浏览多个控制台页面。

以下列表包含 Amazon 资源和指标的类型,客户可为其配置创建 OpsItems 的 CloudWatch 告警。

  • Amazon DynamoDB:数据库读取和写入操作达到阈值

  • Amazon EC2:CPU 使用率达到阈值

  • Amazon 账单:预估费用达到阈值

  • Amazon EC2:实例未能通过状态检查

  • Amazon Elastic Block Store (EBS):磁盘空间使用率达到阈值

以下列表包含客户配置用于创建 OpsItems 的 EventBridge 规则类型。

  • Amazon Security Hub:发出安全提示

  • DynamoDB:节流事件

  • Amazon EC2 Auto Scaling:启动实例失败

  • Systems Manager:运行自动化失败

  • Amazon Health:计划维护提示

  • EC2:实例状态从 Running 更改为 Stopped

OpsCenter 还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 进行集成。因此,您可以为应用程序中检测到的问题自动创建 OpsItems。您也可以集成 OpsCenter 与 Amazon Security Hub,以便在 Systems Manager 中汇集安全性、性能和操作问题并采取措施。

运营工程师和 IT 专业人员可以使用 Amazon Systems Manager 控制台中的 OpsCenter 页面、公有 API 操作、Amazon Command Line Interface(Amazon CLI)、Amazon Tools for Windows PowerShell或 Amazon SDK,以创建、查看和编辑 OpsItems。OpsCenter 公有 API 操作还支持将 OpsCenter 与您的用例管理系统和运行状况控制面板集成。

我的组织如何从 OpsCenter 获益?

对于查看、处理和修正与 Amazon 资源相关的问题,OpsCenter 提供了标准和统一的体验。标准和统一的体验可以缩短解决问题、调查相关问题以及培训新的运营工程师和 IT 专业人员所需的时间。标准和统一的体验还减少了输入管理和修复问题的系统中的手动错误的数量。

更具体地说,OpsCenter 为运营工程师和组织提供以下好处:

  • 您不再需要浏览多个控制台页面来查看、调查和解决与 Amazon 资源相关的 OpsItems。OpsItems 跨服务聚合在一个中心位置。

  • 您可以查看与 OpsItems 相关的特定服务数据和上下文相关数据,这些数据由 CloudWatch 告警、EventBridge 事件以及适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 自动生成。

  • 您可以指定与 OpsItem 相关的资源的 Amazon Resource Name (ARN)。通过指定相关资源,OpsCenter 可使用内置逻辑来帮助您避免创建重复的 OpsItems。

  • 您可以查看有关类似 OpsItems 的详细信息和分辨率信息。

  • 您可以快速查看并运行有关 Systems Manager 自动化运行手册的信息,以解决问题。

OpsCenter 具有哪些功能?

  • 自动化和手动 OpsItem 创建

    OpsCenter 已与 Amazon CloudWatch 集成。因此,您可以配置 CloudWatch,以便当告警进入 ALARM 状态时或者当 Amazon EventBridge 处理发布事件的 Amazon 服务的事件时,可自动在 OpsCenter 中创建 OpsItem。您还可以手动创建 OpsItems。

    OpsCenter 还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 进行集成。因此,您可以为应用程序中检测到的问题自动创建 OpsItems。

  • 详细的且可搜索的 OpsItems

    每个 OpsItem 包含多个信息字段,包括标题、ID、优先级、描述、OpsItem 的源以及该源的上次更新日期/时间。每个 OpsItem 还包括以下可配置的功能:

    • 状态:“打开”、“正在进行中”、“已解决”或“打开且正在进行中”。

    • 相关资源:相关资源是指受影响的资源或已启动创建 OpsItem 的 EventBridge 事件的资源。每个 OpsItem 均包含一个相关资源部分,其中 OpsCenter 自动列出了相关资源的 Amazon Resource Name (ARN)。您也可以手动指定相关资源的 ARN。对于一些 ARN 类型,OpsCenter 会自动创建一个深层链接,您可通过该链接查看有关此资源的详细信息,而无需访问其他控制台页面来查看此类信息。例如,如果您指定 EC2 实例的 ARN,则可以在 OpsCenter 中查看 EC2 提供的有关该实例的所有详细信息。您可以手动添加额外的相关资源的 ARN。每个 OpsItem 可以列出最多 100 个相关资源 ARN。有关更多信息,请参阅 将相关资源添加到 OpsItem

    • 相关和相似 OpsItems:借助相关 OpsItems 功能,您可以指定在某些方面与当前 OpsItem 相关的 OpsItems 的 ID。相似 OpsItem 功能将自动审查 OpsItem 标题和描述,然后列出可能与您相关或您感兴趣的其他 OpsItems。

    • 可搜索的私有操作数据:操作数据是一种自定义数据,该数据提供了有关 OpsItem 的有用参考详细信息。例如,您可以指定日志文件、错误字符串、许可密钥、故障排除提示或其他相关数据。请以键/值对的形式输入操作数据。密钥的最大长度为 128 个字符。值最大为 20 KB 大小。

      此自定义数据是可搜索的,但有限制。对于 Searchable operational data (可搜索的操作数据) 功能,所有有权访问 OpsItem概览页面(由 DescribeOpsItems API 操作提供)的用户都可以查看和搜索指定的数据。对于 Private operational data (私有操作数据) 功能,数据仅可供有权访问 OpsItem(由 GetOpsItem API 操作提供)的用户查看。

    • 重复数据删除:通过指定相关资源,OpsCenter 可使用内置逻辑来帮助您避免创建重复的 OpsItems。OpsCenter 还包括一项名为 操作洞察 的功能,可显示有关 OpsItems 的重复信息。要进一步限制账户中重复的 OpsItems 的数量,您可以为 EventBridge 事件规则手动指定重复数据删除字符串。有关更多信息,请参阅 管理重复的 OpsItems

  • 批量编辑 OpsItems:您可以在 OpsCenter 中选择多个 OpsItems,然后编辑以下字段之一:Status(状态)、Priority(优先级)、Severity(严重性)、Category(类别)。

  • 使用运行手册轻松修正

    每个 OpsItem 均包含一个 Runbooks (运行手册) 部分以及一个 Systems Manager 自动化运行手册列表,您可使用这些运行手册自动修正与 Amazon 资源相关的常见问题。如果您打开 OpsItem,请为该 OpsItem 选择 Amazon 资源,然后在控制台中选择 Run automation(运行自动化)按钮,则 OpsCenter 会提供一个自动化运行手册列表,以供您在生成 OpsItem 的 Amazon 资源中运行这些运行手册。从 OpsItem 运行自动化运行手册后,运行手册将自动与该 OpsItem 的相关资源关联以供将来参考。此外,如果您通过使用 OpsCenter 在 EventBridge 中自动设置 OpsItem 规则,则 EventBridge 将自动关联常见事件的运行手册。OpsCenter 为特定的 OpsItem 保存 30 天的 自动化运行手册记录。有关更多信息,请参阅 修复 OpsItem 问题

  • 更改通知:您可以指定 Amazon Simple Notification Service (SNS) 主题的 ARN 并在更改或编辑 OpsItem 时随时发布通知。SNS 主题必须位于与 OpsItem 相同的 Amazon Web Services 区域中。

  • 全面的 OpsItem 搜索功能:OpsCenter 提供多个搜索选项来帮助您快速找到 OpsItems。以下是几个搜索方式的示例:OpsItem ID、标题、上次修改时间、操作数据值、源和运行手册执行的自动化 ID(仅举几例)。您可以使用状态筛选器进一步限制搜索结果。

  • OpsItem 摘要报告

    OpsCenter 包含一个摘要报告页面,此页面显示以下部分:

    • 状态摘要:按状态(“打开”、“正在进行中”、“已解决”和“打开且正在进行中”)显示的 OpsItems 摘要。

    • 具有最常打开的 OpsItems源:最高 Amazon 服务的细分,其具有打开的 OpsItems 。

    • OpsItems by source and age (按源和使用期限显示的 &OIS;):按源和创建天数分组的 OpsItems 的计数。

    有关查看 OpsCenter 摘要报告的更多信息,请参阅 查看 OpsCenter 摘要报告

  • 支持日志记录和审计功能

    您可以通过与其他 Amazon 服务集成来审计和记录 Amazon Web Services 账户 中的 OpsCenter 用户操作。有关更多信息,请参阅 查看 OpsCenter 日志和报告

  • 支持通过控制台、CLI、PowerShell 和开发工具包等方式访问 OpsCenter 功能

    您可以通过 Amazon Systems Manager 控制台、Amazon Command Line Interface (Amazon CLI)、Amazon Tools for PowerShell 或您选择的 Amazon SDK 来使用 OpsCenter。

OpsCenter 是否与我的现有用例管理系统集成?

OpsCenter 旨在补充您的现有用例管理系统。您可以使用公有 API 操作将 OpsItems 集成到您的现有用例管理系统中。您还可以维护当前系统中的手动生命周期工作流程,并使用 OpsCenter 作为调查和修正中心。

有关 OpsCenter 公有 API 操作的信息,请参阅《Amazon Systems Manager API 参考》中的以下 API 操作。

使用 OpsCenter 是否需要收取费用?

是。有关更多信息,请参阅Amazon Systems Manager 定价

OpsCenter 是否使用我的本地和混合托管式节点?

是。若问题与为 Systems Manager 配置的本地托管式节点相关,您可以使用 OpsCenter 来调查和修正这些问题。有关为 Systems Manager 设置和配置本地服务器和虚拟机的更多信息,请参阅 使用 Systems Manager 管理混合和多云环境中的服务器

OpsCenter 的配额是多少?

在《Amazon Web Services 一般参考》中的 Systems Manager service quotas 中,您可以查看所有 Systems Manager 功能的限额。除非另有说明,否则,每个限额是区域特定的。