Amazon Web Services Systems Manager OpsCenter - Amazon Web Services Systems Manager
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Web Services Systems Manager OpsCenter

OpsCenter,一种Amazon Web Services Systems Manager提供了一个中心位置,运营工程师和 IT 专业人员可在该位置查看、OpsItems 查和解决与Amazon资源的费用。OpsCenter 旨在减少影响问题的平均解决时间Amazon资源的费用。此 Systems Manager 功能可在服务之间聚合并标准化 OpsItems,同时提供有关每个 OpsItem、相关 OpsItems 和相关资源的上下文调查数据。OpsCenter 还提供了 Systems Manager Automation 运行手册,可使用这些手册来快速解决问题。您可以为每个 OpsItem 指定可搜索的自定义数据。您还可以按状态和源查看自动生成的 OpsItem 相关摘要报告。

OpsCenter 与亚马逊 EventBridge 和 Amazon CloudWatch 集成。这意味着您可以将这些服务配置为当 OpsCenter CloudWatch 警报进入ALARM状态或 EventBridge 处理来自任何Amazon发布事件的服务。将 CloudWatch 警报和 EventBridge 事件配置为自动创建 OpsItems,使您能够快速诊断和修复Amazon从单个控制台中获取资源。

为了帮助您诊断问题,每个 OpsItem 都包含与上下文相关的信息,例如Amazon资源,用于生成 OpsItem、警报或事件详细信息、警报历史记录和警报时间线图。

运营工程师和 IT 专业人员可以使用Amazon Web Services Systems Manager控制台、公共 API 操作、Amazon命令行界面 (AmazonCLI)、Amazon适用于 Windows PowerShell 的工具或Amazon开发工具包。OpsCenter 公有 API 操作使您能够将 OpsCenter 与案例管理系统和运行状况控制面板集成。

OpsCenter 集成

下表描述了 OpsCenter 如何与其他Amazon服务和 Systems Manager 功能。当 OpsCenter 与这些服务和功能集成时,可帮助您快速诊断和修复Amazon从单个控制台中获取资源。

服务或功能 详细信息 有关

EventBridge

您可以将 Amazon EventBridge 配置为在系统处理来自任何Amazon发布事件的服务。以下列表包括可以配置为创建 OpsItems 的 EventBridge 规则的类型:

  • Amazon Security Hub:已发出安全警报

  • Amazon DynamoDB:限制事件

  • Amazon EC2 Auto Scaling:启动实例失败

  • Systems Manager:无法运行自动化

  • Amazon Health:针对计划维护的警报

  • Amazon Elastic Compute Cloud (Amazon EC2):实例状态从RunningStopped

为了帮助您诊断问题,每个 OpsItem 都包含与事件有关的上下文相关的信息,例如Amazon资源以及 OpsItem 关事件的详细信息。

配置 EventBridge 梁以自动为特定事件创建 OpsItems

CloudWatch

您可以将 Amazon CloudWatch 配置为当 CloudWatch 警报进入ALARM状态。下面的列表包括Amazon资源和指标,您可以配置 CloudWatch 警报以创建 OpsItems:

  • DynamoDB:数据库读取和写入操作达到阈值

  • Amazon EC2:CPU 利用率达到阈值

  • Amazon Billing and Cost Management:估计费用达到阈值

  • Amazon EC2:实例无法通过状态检查

  • Amazon Elastic Block Store (Amazon EBS):磁盘空间利用率达到阈值

为了帮助您诊断问题,每个 OpsItem 都包含有关警报的上下文相关信息,例如Amazon资源,用于生成 OpsItem、警报详细信息、警报历史记录和警报时间线图。

CloudWatch 配置为通过警报创建 OpsItems 作

事件管理器

Amazon事件管理器是 Systems Manager 的一项功能,它提供了一个事件管理控制台,可帮助您缓解影响Amazon托管应用程序。一个事件是任何意外中断或服务质量下降。设置和配置事件管理器后,系统会在事件管理器中创建意外事件时自动在 OpsCenter 中创建 OpOpsItems。您还可以手动将事件添加到 OpsItem 中。

事件解决后,事件后分析将指导您确定事件响应的改进,并建议处理调查结果的措施项。对于事件等严重性高的操作问题,在 OpsCenter 中创建 OpsSiteM 可为操作员提供事件、分析和措施项的完整视图。这种全面的视图缩短了解决问题的时间,并有助于缓解未来类似问题。

在 OpsCenter 中使用事件管理器事件

Amazon Systems Manager 事件管理器用户指南

适用于 .NET 和 SQL Server 的 CloudWatch Application Insights

OpsCenter 还与适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 集成在一起。CloudWatch Application Insights 可帮助您监控使用 Amazon EC2 实例以及其他应用程序资源的应用程序。此功能可在应用程序资源和技术堆栈中识别和设置关键指标、日志和警报。此功能还为检测到的问题创建自动化仪表板。仪表板包括相关指标异常、日志错误和其他信息,以帮助您确定错误的根本原因。在 CloudWatch 应用程序见解中配置应用程序资源时,您可以选择让系统在检测到问题时在 OpsCenter 中创建 OpsCenter 中创建 Opsitems。

设置应用程序中的Amazon CloudWatch 用户指南

对于每个Amazon资源自动生成 OpsItem,OpsCenter 会聚合来自Amazon Config、Amazon CloudTrail日志和 EventBridge。因此,您不必在调查期间跨多个控制台页面导航。

OpsCenter 如何让我的组织获益?

OpsCenter 可提供标准和统一的体验,以查看、处理和修正与Amazon资源的费用。标准和统一的体验可以缩短解决问题、调查相关问题以及培训新的运营工程师和 IT 专业人员所需的时间。标准和统一的体验还减少了输入管理和修复问题的系统中的手动错误的数量。

更具体地说,OpsCenter 为运营工程师和组织提供以下好处:

  • 您不再需要浏览多个控制台页面来查看、调查和解决与Amazon资源的费用。OpsItems 在一个中心位置跨服务聚合。

  • 您可以查看由 CloudWatch 警报、EventBridge 事件和适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 自动生成的 OpsItems 的服务特定数据和上下文相关数据。

  • 您可以指定与 OpsItem 相关的资源的 Amazon 资源名称 (ARN)。通过指定相关资源,OpsCenter 会使用内置逻辑来帮助您避免创建重复的 OpsItems。

  • 您可以查看有关类似 OpsItems 的详细信息和分辨率信息。

  • 您可以快速查看有关 Systems Manager Automation 运行手册的信息,并运行系统管理器 Automation

OpsCenter 具有哪些功能?

  • 自动和手动 OpsItem 创建

    OpsCenter 与 Amazon CloudWatch 集成。这意味着您可以将 CloudWatch 配置为在警报进入ALARM状态或亚马逊 EventBridge 处理来自任何Amazon发布事件的服务。您还可以手动创建 OpsItems。

    OpsCenter 还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 集成在一起。这意味着,您可以自动为在应用程序中检测到的问题创建 OpsItems。

  • 详细的且可搜索的 OpsItems

    每个 OpsItem 都包含多个信息字段,其中包括标题、ID、优先级、描述、OpsItem 的源以及它的上次更新日期/时间。每个 OpsItem te 还包括以下可配置的功能:

    • 状态:打开、正在进行中、已解决或打开且正在进行中。

    • 相关资源:相关资源是受影响的资源或已触发创建 OpsItem 的 EventBridge 事件的资源。每个 OpsItem 都包括相关资源部分,其中 OpsCenter 会自动列出相关资源的 Amazon 资源名称 (ARN)。您也可以手动指定相关资源的 ARN。对于一些 ARN 类型,OpsCenter 会自动创建一个深层链接,可通过该链接查看有关资源的详细信息,而无需访问其他控制台页面来查看该信息。例如,如果您指定 EC2 实例的 ARN,则可以在 OpsCenter 中查看有关此实例的 EC2 提供的所有详细信息。您可以手动添加额外的相关资源的 ARN。每个 OpsItem te 最多可以列出 100 个相关资源 ARN。有关更多信息,请参阅 使用相关资源

    • 相关的及相似的 OpsItems:这些区域有:相关 OpsItems功能可让您指定在某方面与当前 OpsItems 相关的 OpsItem 的 ID。这些区域有:OpsItem功能将自动审查 OpsItem 标题和描述,然后列出与您相关的或您感兴趣的其他 OpsItems。

    • 可搜索和私有操作数据:操作数据是一种自定义数据,该数据提供了有关 OpsItem ce 的有用参考详细信息 例如,您可以指定日志文件、错误字符串、许可密钥、故障排除提示或其他相关数据。您以键/值对的形式输入操作数据。密钥的最大长度为 128 个字符。值的最大大小为 20 KB。

      此自定义数据是可搜索的,但有限制。对于可搜索的操作数据功能,则所有权访问 “OpsItem 概述” 页面(由DescribeOpsItemsAPI 操作)可以查看和搜索指定的数据。对于 Private operational data (私有操作数据) 功能,数据仅可供有权访问 OpsItem(由 GetOpsItem API 操作提供)的用户查看。

    • 重复数据消除:通过指定相关资源,OpsCenter 会使用内置逻辑来帮助您避免创建重复的 OpsItems。此外,从 EventBridge 中的事件自动创建的 OpsItems 包含重复数据删除字符串,用于减少重复的 OpsItems 数量。有关更多信息,请参阅 减少重复的 OpsItems

  • 使用运行手册轻松修正

    每个 OpsItem 都包括运行手册部分以及一个 Systems Manager Automation 运行手册列表,可使用这些手册自动修正常见问题Amazon资源的费用。如果您打开一个 OpsItem,请选择Amazon资源 OpsItem 后选择运行自动化按钮,则 OpsCenter 会提供一个自动化运行手册列表,您可以在Amazon资源来生成 OpsItem。在从 OpsIteM 运行自动化运行手册后,运行手册将自动与 OpsItem 的相关资源关联以供将来参考。此外,如果您通过使用 OpsCenter 在 EventBridge 中自动设置 OpsIteM 规则,则 EventBridge 会自动关联常见事件的运行手册。OpsCenter 会保留针对特定 OpsItem 运行的自动化运行手册的 30 天记录。有关更多信息,请参阅 使用 Systems Manager 自动化修复 OpsItem 问题

  • 更改通知:您可以指定 Amazon Simple Notification Service (SNS) 主题的 ARN 并在更改或编辑 OpsItem 时随时发布通知。SNS 主题必须位于同一Amazon Web Services 区域作为可用项目 M。

  • 全面的 OpsItem 搜索功能:OpsCenter 提供多个搜索选项来帮助您快速找到 OpsItems。以下几个示例说明了如何搜索:OpsItem ID、标题、上次修改时间、操作数据值、源和运行手册执行的 Automation ID(仅举几例)。您可以使用状态筛选器进一步限制搜索结果。

  • OpsItem 摘要报告

    OpsCenter 包含一个摘要报告页面,此页面显示以下部分:

    • 状态摘要:按状态(“打开”、“正在进行中”、“已解决” 和 “打开且正在进行中”)显示的 OpsIMS 摘要。

    • 具有最多开放 OpsItems 的源代码:顶部的细分Amazon服务与开放的 OpsItems.

    • 按来源和年龄分列的 OpsItems:按源和创建天数分组的 OpsItems 计数。

    有关查看 OpsCenter 摘要报告的更多信息,请参阅。查看 OpsCenter 摘要报告

  • IAM 访问控制

    通过使用 AWS Identity of Access Management (IAM) 策略,您可以控制组织的哪些成员能够创建、查看、列出和更新 OpsItems。您还可以将标签分配给 OpsItems,然后创建 IAM 策略,该策略将根据标签向用户和组授予访问权限。有关更多信息,请参阅 开始使用 OpsCenter

  • 支持日志记录和审计功能

    您可以审计和记录 OpsCenter 用户操作Amazon Web Services 账户通过与其他集成Amazon服务。有关更多信息,请参阅 审计和记录 OpsCenter 活动

  • 支持通过控制台、CLI、PowerShell 和开发工具包等方式访问 OpsCenter 功能

    您可以通过使用 OpsCenterAmazon Web Services Systems Manager控制台、Amazon命令行界面 (AmazonCLI)、AmazonTools for PowerShell 或Amazon您选择的 SDK。

OpsCenter 如何与亚马逊 EventBridge 接配合使用? 我应该使用哪种服务?

Amazon EventBridge 提供近乎实时的系统事件流,这些系统事件描述了Amazon资源的费用。通过使用可快速设置的简单规则,您可以匹配事件并将事件路由到一个或多个目标函数或流。一般来说,EventBridge 会让您知道您的资源存在问题。

OpsCenter 可帮助您调查和修复问题。OpsCenter 汇集来自 EventBridge 的数据或工程师手动输入的数据,以便您的工程师能够进行彻底的调查。OpsCenter 还提供了用于快速修复这些问题的自动化运行手册。OpsCenter 通过使您能够自动创建 OpsItems(也可以手动创建 OpsItems)来解决以下类型的问题:性能降级、状态更改、执行失败、维护通知和安全警报。

OpsCenter 是否与我的现有案例管理系统集成?

OpsCenter 旨在补充您的现有案例管理系统。您可以使用公有 API 操作将 OpsItems 集成到您的现有案例管理系统中。您还可以维护当前系统中的手动生命周期工作流程,并使用 OpsCenter 作为调查和修正中心。

有关 OpsCenter 公有 API 操作的信息,请参阅Amazon Web Services Systems ManagerAPI 参考

使用 OpsCenter 是否需要支付费用?

是。有关更多信息,请参阅 Amazon Web Services Systems Manager 定价

OpsCenter 是否使用我的本地和混合托管实例?

是。您可以使用 OpsCenter 调查和修正与为 Systems Manager 配置的本地托管实例相关的问题。有关为 Systems Manager 设置和配置本地服务器和虚拟机的详细信息,请参阅为混合环境设置 Amazon Web Services Systems Manager

OpsCenter 的配额是多少?

您可以查看所有 Systems Manager 功能的配额,在Systems Manager 服务配额中的Amazon Web Services 一般参考。除非另有说明,否则,每个配额是区域特定的。