AWS Systems Manager
用户指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

AWS Systems Manager OpsCenter

OpsCenter 提供了一个中心位置,运营工程师和 IT 专业人员可在该位置查看、调查和解析与 AWS 资源相关的操作工作项 (OpsItems)。OpsCenter 旨在减少影响 AWS 资源的问题的平均解决时间。此 Systems Manager 功能跨设备聚合和标准化 OpsItems,同时提供有关每个 OpsItem、相关 OpsItems 和相关资源的上下文调查数据。OpsCenter 还提供了可用于快速解决问题的 Systems Manager Automation 文档(运行手册)。您可以为每个 OpsItem 指定可搜索的自定义数据。您还可以按状态和源查看自动生成的 OpsItems 相关摘要报告。

OpsCenter 已与 Amazon CloudWatch Events 集成。这意味着您可以创建 CloudWatch Events 规则,此规则自动为将事件发布到 CloudWatch Events 的任何 AWS 服务创建 OpsItems。例如,您可以将 SSM OpsItem 配置为以下类型的事件以及数百个其他事件的目标:

  • 安全性问题,例如来自 AWS Security Hub 的警报

  • 性能问题,例如 Amazon DynamoDB 的限制事件或降级的 Amazon Elastic Block Store (EBS) 卷性能

  • 失败,例如 Amazon EC2 Auto Scaling 组无法启动实例或 Systems Manager Automation 执行失败

  • 运行状况警报,例如针对计划维护的 AWS Health 警报

  • 状态更改,例如 Amazon EC2 实例的状态从 Running 更改为 Stopped

OpsCenter 还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 集成在一起。这意味着,您可以自动为在应用程序中检测到的问题创建 OpsItems。

运营工程师和 IT 专业人员可以使用 AWS Systems Manager 控制台中的 OpsCenter 页、公有 API 操作、AWS CLI、AWS Tools for Windows PowerShell 或 AWS 开发工具包来创建、查看和编辑 OpsItems。您也可以将 AWS Lambda 和 Amazon SNS 结合使用以从源(例如,CloudWatch 警报)创建 OpsItems。此外,OpsCenter 公有 API 操作使您能够将 OpsCenter 与案例管理系统和运行状况控制面板集成。

我的组织如何从 OpsCenter 获益?

AWS Systems Manager OpsCenter 为查看、处理和修复与 AWS 资源相关的问题提供了标准和统一的体验。标准和统一的体验可以缩短解决问题、调查相关问题以及培训新的运营工程师和 IT 专业人员所需的时间。标准和统一的体验还减少了输入管理和修复问题的系统中的手动错误的数量。

更具体地说,OpsCenter 为运营工程师和组织提供以下好处:

  • 您不再需要浏览多个控制台页面来查看、调查和解决与 AWS 资源相关的 OpsItems。OpsItems 跨服务聚合在一个中心位置。

  • 您可以查看 Amazon CloudWatch Events 和适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 自动生成的 OpsItems 的服务特定数据和上下文相关数据。

  • 您可以指定与 OpsItem 相关的资源的 Amazon 资源名称 (ARN)。通过指定相关资源,OpsCenter 可使用内置逻辑来帮助您避免创建重复的 OpsItems。

  • 您可以查看有关类似 OpsItems 的详细信息和分辨率信息。

  • 您可以查看有关 Systems Manager Automation 文档(运行手册)的信息并按照这些文档内容进行操作来解决问题。

OpsCenter 有哪些功能?

  • 自动化和手动 OpsItem 创建

    OpsCenter 已与 Amazon CloudWatch Events 集成。这意味着您可以创建 CloudWatch 规则,此规则自动为将事件发布到 CloudWatch Events 的任何 AWS 服务创建 OpsItems。您还可以手动创建 OpsItems。

    OpsCenter 还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 集成在一起。这意味着,您可以自动为在应用程序中检测到的问题创建 OpsItems。

  • 详细的且可搜索的 OpsItems

    每个 OpsItem 包含多个信息字段,包括标题、ID、优先级、描述、OpsItem 的源以及该源的上次更新日期/时间。每个 OpsItem 还包括以下可配置的功能:

    • 状态:“打开”、“正在进行中”、“已解决”或“打开且正在进行中”。

    • 相关资源:相关资源是受影响的资源或已触发创建 OpsItem 的 Amazon CloudWatch Events 事件的资源。每个 OpsItem 均包含一个相关资源部分,其中 OpsCenter 自动列出了相关资源的 Amazon 资源名称 (ARN)。您也可以手动指定相关资源的 ARN。对于一些 ARN 类型,OpsCenter 会自动创建一个深层链接,可通过该链接查看有关资源的详细信息,而无需访问其他控制台页面来查看该信息。例如,如果您指定 EC2 实例的 ARN,则可以在 OpsCenter 中查看 EC2 提供的有关该实例的所有详细信息。您可以手动添加额外的相关资源的 ARN。每个 OpsItem 可以列出最多 100 个相关资源 ARN。有关更多信息,请参阅使用相关资源

    • 相关和相似 OpsItems相关 OpsItems 功能可让您指定在某方面与当前 OpsItem 相关的 OpsItems 的 ID。相似 OpsItem 功能将自动审查 OpsItem 标题和描述,然后列出与您相关的或您感兴趣的其他 OpsItems。

    • 可搜索的私有操作数据:操作数据是一种自定义数据,该数据提供了有关 OpsItem 的有用参考详细信息。例如,您可以指定日志文件、错误字符串、许可密钥、故障排除提示或其他相关数据。您以键/值对的形式输入操作数据。密钥的最大长度为 128 个字符。值的最大大小为 20 KB。

      此自定义数据是可搜索的,但有限制。对于 Searchable operational data (可搜索的操作数据) 功能,所有有权访问“ OpsItem Overview ( OpsItem 概述)”页面(由 DescribeOpsItems API 操作提供)的用户都可以查看和搜索指定的数据。对于 Private operational data (私有操作数据) 功能,数据仅可供有权访问 OpsItem(由 GetOpsItem API 操作提供)的用户查看。

    • 重复数据删除:通过指定相关资源,OpsCenter 可使用内置逻辑来帮助您避免创建重复的 OpsItems。此外,从 CloudWatch 中的事件自动创建的 OpsItems 包含重复数据删除字符串,用于减少重复 OpsItems 的数量。有关更多信息,请参阅减少重复的 OpsItems

  • 使用运行手册轻松修正

    每个 OpsItem 均包含一个 Runbooks (运行手册) 部分以及一个 Systems Manager Automation 文档列表,可使用这些文档自动修正与 AWS 资源相关的常见问题。在从 OpsItem 执行一个运行手册后,此运行手册将自动与 OpsItem 的相关资源关联以供将来参考和轻松执行。此外,如果您通过使用 OpsCenter 在 CloudWatch 中自动设置 OpsItem 规则,则 CloudWatch 将自动关联常见事件的运行手册。有关更多信息,请参阅使用 Systems Manager Automation 修正 OpsItem 问题

  • 更改通知:您可以指定 Amazon Simple Notification Service (SNS) 主题的 ARN 并在更改或编辑 OpsItem 时随时发布通知。SNS 主题必须位于与 OpsItem 相同的 AWS 区域中。

  • 全面的 OpsItem 搜索功能:OpsCenter 提供多个搜索选项来帮助您快速找到 OpsItems。以下是一些搜索方式的示例:OpsItem ID、标题、上次修改时间、操作数据值、源和运行手册执行的 Automation ID(仅举几例)。您可以使用状态筛选器进一步限制搜索结果。

  • OpsItem 摘要报告

    OpsCenter 包含一个摘要报告页面,此页面显示以下部分:

    • 状态摘要:按状态(“打开”、“正在进行中”、“已解决”和“打开且正在进行中”)显示的 OpsItems 摘要。

    • Sources with most open OpsItems (带大多数打开的 &OIS; 的源):具有打开的 OpsItems 的顶级 AWS 服务的细分。

    • OpsItems by source and age (按源和使用期限显示的 &OIS;):按源和创建天数分组的 OpsItems 的计数。

    有关查看 OpsCenter 摘要报告的更多信息,请参阅查看 OpsCenter 摘要报告

  • IAM 访问控制

    通过使用 AWS Identity and Access Management (IAM) 策略,您可以控制组织的哪些成员可以创建、查看、列出和更新 OpsItems。您还可以将标签分配给 OpsItems,然后创建 IAM 策略,该策略将根据标签向用户和组授予访问权限。有关更多信息,请参阅 OpsCenter 入门

  • 支持日志记录和审计功能

    您可以通过与其他 AWS 服务集成来审计和记录您的 AWS 账户中的 OpsCenter 用户操作。有关更多信息,请参阅审计和记录 OpsCenter 活动

  • 支持通过控制台、CLI、PowerShell 和开发工具包访问 OpsCenter 功能

    您可以通过 AWS Systems Manager 控制台、AWS CLI、AWS Tools for PowerShell或所选的 AWS 开发工具包来使用 OpsCenter。

OpsCenter 如何与 Amazon CloudWatch Events 结合使用? 我应该使用哪种服务?

Amazon CloudWatch Events 提供近乎实时的系统事件流以描述 AWS 资源变化。通过使用可快速设置的简单规则,您可以匹配事件并将事件路由到一个或多个目标函数或流。一般来说,CloudWatch Events 可让您知道您的资源存在问题。

OpsCenter 帮助您调查和修正问题。OpsCenter 汇集了 CloudWatch Events 中的数据或工程师手动输入的数据,以便工程师能够自行彻底的调查。OpsCenter 还提供了 Automation 运行手册以便快速修正这些问题。OpsCenter 通过允许您自动创建 OpsItems(您也可以手动创建 OpsItems)来解决以下类型的问题,从而与 CloudWatch Events 集成:性能降级、状态更改、执行失败、维护通知和安全警报。

OpsCenter 是否与我的现有案例管理系统集成?

OpsCenter 旨在补充您的现有案例管理系统。您可以使用公有 API 操作将 OpsItems 集成到您的现有案例管理系统中。您还可以维护当前系统中的手动生命周期工作流程,并使用 OpsCenter 作为调查和修正中心。

有关 OpsCenter 公有 API 操作的信息,请参阅 AWS Systems Manager API Reference 中的以下 API 操作。

使用 OpsCenter 是否需要支付费用?

是。有关更多信息,请参阅 AWS Systems Manager 定价

OpsCenter 是否使用我的本地和混合托管实例?

是。您可以使用 OpsCenter 调查和修正与为 Systems Manager 配置的本地托管实例相关的问题。有关为 Systems Manager 设置和配置本地服务器和虚拟机的更多信息,请参阅 为混合环境设置 AWS Systems Manager

OpsCenter 的资源限制是什么?

资源 默认限制

每个账户每区域允许的 OpsItems 总数(包括打开的 已解决的 OpsItems)

500,000

每账户每月的最大 OpsItems 数

10000

最大操作数据值大小

20 KB

每个 OpsItem 的关联的 Automation 运行手册的最大数目

10

在单个关联的运行手册下存储在操作数据中的 Automation 运行手册执行的最大数目

10

可为每个 OpsItem 指定的相关资源的最大数目

100

可以为每个 OpsItem 指定的相关 OpsItems 的最大数目

10

重复数据删除字符串的最大长度

64 个字符