Amazon Systems Manager OpsCenter - Amazon Systems Manager
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Systems Manager OpsCenter

OpsCenter,功能为Amazon Systems Manager提供了一个中心位置,运营工程师和 IT 专业人员可在该位置查看、调查和解决操作工作项 (OpsItems) 与Amazon资源的费用。OpsCenter旨在减少影响问题的平均解决时间Amazon资源的费用。此 Systems Manager 功能可聚合并标准化OpsItems同时提供关于每个服务的上下文调查数据OpsItem, 相关OpsItems以及相关的资源。OpsCenter还提供 Systems Manager Automation 运行手册,可使用这些手册快速解决问题。您可以为每个 OpsItem 指定可搜索的自定义数据。您还可以按状态和源查看自动生成的 OpsItems 相关摘要报告。

OpsCenter与 Amazon EventBridge 和 Amazon CloudWatch 集成。这意味着您可以将这些服务配置为自动创建OpsItem在OpsCenter当 CloudWatch 警报进入ALARM状态或 EventBridge 处理来自任何Amazon服务发布事件。配置 CloudWatch 警报和 EventBridge 事件以自动创建OpsItems允许您快速诊断和修复Amazon资源。

为了帮助您诊断问题,每个OpsItem包含与上下文相关的信息,例如Amazon资源,用于生成OpsItem、警报或事件详细信息、警报历史记录和警报时间线图。

对于Amazon资源,OpsCenter聚合信息来自Amazon Config、Amazon CloudTrail日志和 Amazon CloudWatch Events,因此您无需在调查期间浏览多个控制台页面。

下面的列表包括Amazon资源和指标,客户配置 CloudWatch 警报以创建OpsItems.

  • Amazon DynamoDB:数据库读取和写入操作达到阈值

  • Amazon EC2:CPU 利用率达到阈值

  • Amazon计费:预计费用达到阈值

  • Amazon EC2:实例无法通过状态检查

  • Amazon Elastic Block Store (EBS):磁盘空间利用率达到阈值

以下列表包括客户配置为创建的 EventBridge 规则的类型OpsItems.

  • Amazon Security Hub:已发出安全警报

  • DynamoDB:限制事件

  • Amazon EC2 Auto Scaling:启动实例失败

  • Systems Manager:无法运行自动化

  • Amazon Health:针对计划维护的警报

  • EC2:实例状态从RunningStopped

OpsCenter还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 集成在一起。这意味着,您可以自动为在应用程序中检测到的问题创建 OpsItems。您也可以集成OpsCenter替换为Amazon Security Hub以聚合 Systems Manager 中的安全性、性能和操作问题并采取措施。

运营工程师和 IT 专业人员可以创建、查看和编辑OpsItems通过使用OpsCenter页面中的Amazon Systems Manager控制台、公共 API 操作、Amazon Command Line Interface(Amazon CLI),Amazon Tools for Windows PowerShell,或Amazon开发工具包。OpsCenter公共 API 操作还允许您集成OpsCenter与您的案例管理系统和运行状况仪表板一起使用。

OpsCenter集成

下表描述了OpsCenter与其他集成Amazon服务和 Systems Manager 功能。当它与这些服务和功能集成时,OpsCenter可帮助您快速诊断和修复Amazon资源。

服务或功能 详细信息 有关

EventBridge

您可以将 Amazon EventBridge 配置为自动创建OpsItem在OpsCenter当系统处理来自任何Amazon服务发布事件。以下列表包括可以配置为创建的 EventBridge 规则类型OpsItems:

  • Amazon Security Hub:已发出安全警报

  • Amazon DynamoDB:限制事件

  • Amazon EC2 Auto Scaling:启动实例失败

  • Systems Manager:无法运行自动化

  • Amazon Health:针对计划维护的警报

  • Amazon Elastic Compute Cloud (Amazon EC2):实例状态从RunningStopped

为了帮助您诊断问题,每个OpsItem包含有关事件的上下文相关信息,例如Amazon资源,用于生成OpsItem以及有关事件的详细信息。

配置 EventBridge 以自动创建OpsItems针对特定事件

CloudWatch

您可以将 Amazon CloudWatch 配置为自动创建OpsItem在OpsCenter当 CloudWatch 警报进入ALARM状态。下面的列表包括Amazon资源和指标,您可以配置 CloudWatch 警报以创建OpsItems:

  • DynamoDB:数据库读取和写入操作达到阈值

  • Amazon EC2:CPU 利用率达到阈值

  • Amazon Billing and Cost Management:估计费用达到阈值

  • Amazon EC2:实例无法通过状态检查

  • Amazon Elastic Block Store (Amazon EBS):磁盘空间利用率达到阈值

为了帮助您诊断问题,每个OpsItem包含有关警报的上下文相关信息,例如Amazon资源,用于生成OpsItem、警报详细信息、警报历史记录和警报时间线图。

配置 CloudWatch 以创建OpsItems从警报

Incident Manager

Amazon事件管理器是 Systems Manager 的一项功能,它提供了一个事件管理控制台,可帮助您缓解影响Amazon托管应用程序。网络 ACL 和安全组都允许 (因此可到达您的实例) 的发起 ping 的事件是任何意外中断或服务质量下降。在设置和配置事件管理器后,系统将自动创建OpsItems在OpsCenter在事件管理器中创建事件时。您还可手动将事件添加到OpsItem.

事件解决后,事件后分析将指导您确定事件响应的改进,并建议处理调查结果的措施项。对于严重性较高的操作问题(如事件),创建OpsItem在OpsCenter为操作员提供事件、分析和措施项的完整视图。这种全面的视图缩短了解决问题的时间,并有助于缓解未来类似问题。

在中使用事件管理器事件OpsCenter

Amazon Systems Manager Incident Manager 用户指南

适用于 .NET 和 SQL Server 的 CloudWatch Application Insights

OpsCenter还与适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 集成在一起。CloudWatch Application Insights 可帮助您监控使用 Amazon EC2 实例以及其他应用程序资源的应用程序。此功能可在应用程序资源和技术堆栈中识别和设置关键指标、日志和警报。此功能还为检测到的问题创建自动化仪表板。仪表板包括相关指标异常、日志错误和其他信息,以帮助您确定错误的根本原因。在 CloudWatch 应用分析中配置应用程序资源时,可以选择让系统创建OpsItems在OpsCenter检测到问题时。

设置应用程序中的Amazon CloudWatch 用户指南

对于每个Amazon资源,它会自动生成OpsItem、OpsCenter聚合信息来自Amazon Config、Amazon CloudTrail日志和 EventBridge。因此,您不必在调查期间跨多个控制台页面导航。

我的组织如何从 OpsCenter 获益?

OpsCenter提供了标准和统一的体验,可用于查看、处理和修正与Amazon资源的费用。标准和统一的体验可以缩短解决问题、调查相关问题以及培训新的运营工程师和 IT 专业人员所需的时间。标准和统一的体验还减少了输入管理和修复问题的系统中的手动错误的数量。

更具体地说,OpsCenter 为运营工程师和组织提供以下好处:

  • 您不再需要浏览多个控制台页面来查看、调查和解决OpsItems相关Amazon资源的费用。OpsItems在一个中心位置跨服务进行聚合。

  • 您可以查看服务特定的上下文相关数据,以查看OpsItems这些都是由 CloudWatch 警报、EventBridge 事件和适用于 .NET 和 SQL Server 的 CloudWatch Application Insights 自动生成的。

  • 您可以指定与 OpsItem 相关的资源的 Amazon 资源名称 (ARN)。通过指定相关资源,OpsCenter 可使用内置逻辑来帮助您避免创建重复的 OpsItems。

  • 您可以查看有关类似 OpsItems 的详细信息和分辨率信息。

  • 您可以查看有关 Systems Manager Automation 运行手册以解决问题的信息并运行该手册。

OpsCenter 具有哪些功能?

  • 自动和手动OpsItem创建

    OpsCenter与 Amazon CloudWatch 集成。这意味着您可以将 CloudWatch 配置为自动创建OpsItem在OpsCenter当警报进入ALARM状态或 Amazon EventBridge 处理来自任何Amazon服务发布事件。您还可以手动创建 OpsItems。

    OpsCenter还与适用于 .NET 和 SQL Server 的 Amazon CloudWatch Application Insights 集成在一起。这意味着,您可以自动为在应用程序中检测到的问题创建 OpsItems。

  • 详细的且可搜索的 OpsItems

    每个 OpsItem 包含多个信息字段,包括标题、ID、优先级、描述、OpsItem 的源以及该源的上次更新日期/时间。每个 OpsItem 还包括以下可配置的功能:

    • 状态:打开、正在进行中、已解决” 或 “打开且正在进行中”。

    • 相关资源:相关资源是受影响的资源或已启动 EventBridge 事件的资源,这些资源创建了OpsItem. 每个 OpsItem 均包含一个相关资源部分,其中 OpsCenter 自动列出了相关资源的 Amazon 资源名称 (ARN)。您也可以手动指定相关资源的 ARN。对于一些 ARN 类型,OpsCenter 会自动创建一个深层链接,可通过该链接查看有关资源的详细信息,而无需访问其他控制台页面来查看该信息。例如,如果您指定 EC2 实例的 ARN,则可以在 OpsCenter 中查看 EC2 提供的有关该实例的所有详细信息。您可以手动添加额外的相关资源的 ARN。每个 OpsItem 可以列出最多 100 个相关资源 ARN。有关更多信息,请参阅 使用相关资源

    • 相关的和相似的OpsItems:使用相关OpsItems功能,您可以指定OpsItems在某种程度上与当前OpsItem. 这些区域有:SINGOpsItem功能自动审阅OpsItem标题和描述,然后列出其他OpsItems可能与您相关或您可能感兴趣的的。

    • 可搜索和私有操作数据:操作数据是一种自定义数据,该数据提供了有关 OpsItem 的有用参考详细信息。例如,您可以指定日志文件、错误字符串、许可密钥、故障排除提示或其他相关数据。您以键/值对的形式输入操作数据。密钥的最大长度为 128 个字符。值的最大大小为 20 KB。

      此自定义数据是可搜索的,但有限制。对于可搜索的操作数据功能,则可以访问OpsItem概述页面(由描述OpsItemsAPI 操作)可以查看和搜索指定的数据。对于私有操作数据功能,数据仅可供有权访问OpsItem(由GetOpsItemAPI 操作)。

    • 重复数据消除:通过指定相关资源,OpsCenter使用内置逻辑来帮助您避免创建重复的OpsItems.OpsCenter还包括一个名为操作见解,它显示有关重复OpsItems. 要进一步限制重复的数量OpsItems,则可以为 EventBridge 事件规则手动指定重复数据消除字符串。有关更多信息,请参阅 减少重复的 OpsItems

  • 使用运行手册轻松修正

    EAGHOpsItem包含运行手册部分以及一个 Systems Manager Automation 运行手册列表,可使用这些运行手册自动修正常见问题。Amazon资源的费用。如果您打开OpsItem中,选择Amazon资源OpsItem,然后选择运行自动化按钮,然后OpsCenter提供了一个自动化运行手册列表,您可以在Amazon资源,用于生成OpsItem. 在运行自动化运行手册之后OpsItem,此运行手册将自动与OpsItem供以后引用。此外,如果您自动设置OpsItem规则在 EventBridge 中使用OpsCenter,那么 EventBridge 会自动关联常见事件的运行手册。OpsCenter保留 30 天的自动化运行手册记录,用于特定OpsItem. 有关更多信息,请参阅 正在进行修正OpsItem问题使用 Systems Manager Automation

  • 变更通知:您可指定 Amazon Simple Notification Service (SNS) 主题的 ARN 并随时随地发布通知。OpsItem被更改或编辑。SNS 主题必须位于同一个 Amazon Web Services 区域 作为OpsItem.

  • 全面的 OpsItem 搜索功能:OpsCenter 提供多个搜索选项来帮助您快速找到 OpsItems。以下几个示例说明如何搜索:OpsItem运行手册执行的 ID、标题、上次修改时间、操作数据值、源和 Automation ID(仅举几例)。您可以使用状态筛选器进一步限制搜索结果。

  • OpsItem 摘要报告

    OpsCenter 包含一个摘要报告页面,此页面显示以下部分:

    • 状态摘要:按状态(“打开”、“正在进行中”、“已解决”和“打开且正在进行中”)显示的 OpsItems 摘要。

    • 最开放的源OpsItems:顶部的细分Amazon开放的服务OpsItems.

    • OpsItems by source and age (按源和使用期限显示的 &OIS;):按源和创建天数分组的 OpsItems 的计数。

    有关查看 OpsCenter 摘要报告的更多信息,请参阅查看 OpsCenter 摘要报告

  • IAM 访问控制

    通过使用Amazon Identity and Access Management(IAM) 策略,您可以控制组织的哪些成员可以创建、查看、列出和更新OpsItems. 您也可以将标签分配给OpsItems,然后创建 IAM 策略,此策略将根据标签向用户和组授予访问权限。有关更多信息,请参阅 开始使用 OpsCenter

  • 支持日志记录和审计功能

    您可以审核和记录OpsCenter用户操作 Amazon Web Services 账户 通过与其他Amazon服务。有关更多信息,请参阅 审计和记录 OpsCenter 活动

  • 支持通过控制台、CLI、PowerShell 和开发工具包等方式访问OpsCenter功能

    您可以使用OpsCenter通过使用Amazon Systems Manager控制台,Amazon Command Line Interface(Amazon CLI),Amazon Tools for PowerShell,或Amazon您选择的 SDK。

操作方法OpsCenter使用 Amazon EventBridge? 我应该使用哪种服务?

Amazon EventBridge 提供近乎实时的系统事件流,这些系统事件描述Amazon资源的费用。通过使用可快速设置的简单规则,您可以匹配事件并将事件路由到一个或多个目标函数或流。一般来说,EventBridge 会通知您您的资源存在问题。

OpsCenter可帮助您调查和修复问题。OpsCenter将 EventBridge 中的数据或工程师手动输入的数据汇集在一起,以便您的工程师能够进行彻底的调查。OpsCenter还提供了用于快速修复这些问题的自动化运行手册。OpsCenter通过允许您自动创建OpsItems(或者您可以手动创建OpsItems)来解决以下类型的问题:性能降级、状态更改、执行失败、维护通知和安全警报。

OpsCenter 是否与我的现有案例管理系统集成?

OpsCenter 旨在补充您的现有案例管理系统。您可以将集成OpsItems使用公有 API 操作将安装到您的现有案例管理系统中。您还可以维护当前系统中的手动生命周期工作流程,并使用 OpsCenter 作为调查和修正中心。

有关的信息OpsCenter公共 API 操作,请参阅Amazon Systems ManagerAPI 参考.

使用 OpsCenter 是否需要支付费用?

是。有关更多信息,请参阅 Amazon Systems Manager定价

OpsCenter 是否使用我的本地和混合托管实例?

是。您可以使用OpsCenter调查和修正与为 Systems Manager 配置的本地托管实例相关的问题。有关为 Systems Manager 设置和配置本地服务器和虚拟机的更多信息,请参阅为混合环境设置 Amazon Systems Manager.

什么是配额OpsCenter?

您可以查看所有 Systems Manager 功能的配额,在Systems Manager Services 配额中的Amazon Web Services 一般参考. 除非另有说明,否则,每个配额是区域特定的。