Amazon MWAA 的容器、队列和数据库指标 - Amazon Managed Workflows for Apache Airflow
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon MWAA 的容器、队列和数据库指标

除了 Apache Airflow 指标外,您还可以使用监控适用于 Apache Airflow 环境的亚马逊托管工作流程的底层组件 CloudWatch,它收集原始数据并将数据处理为可读的近乎实时的指标。借助这些环境指标,您可以更清楚地了解关键性能指标,从而帮助您适当调整环境规模并调试工作流程中的问题。这些指标适用于 Amazon MWAA 上支持的所有 Apache Airflow 版本。

Amazon MWAA 将为每个 Amazon Elastic Container Service(Amazon ECS)容器和 Amazon Aurora PostgreSQL 实例提供 CPU 和内存使用率,提供 Amazon Simple Queue Service(Amazon SQS)指标指示消息数量和最旧消息存放时间,提供 Amazon Relational Database Service(Amazon RDS)指标指示数据库连接、队列磁盘深度、写入操作、延迟和吞吐量,以及提供 Amazon RDS 代理指标。这些指标还包括基础工作线程、额外工作线程、计划程序和 Web 服务器的数量。

这些统计数据会保存 15 个月,从而使您能够访问历史信息,并能够更好地了解计划失败的原因,并对潜在问题进行故障排除。还可以设置特定阈值监视警报,在达到对应阈值时发送通知或采取行动。有关更多信息,请参阅 Amazon CloudWatch 用户指南

术语

命名空间

命名空间是 Amazon 服务 CloudWatch 指标的容器。Amazon MWAA 的命名空间为 AWS/MWAA

CloudWatch 指标

CloudWatch 指标表示特定于的一组按时间顺序排列的数据点。 CloudWatch

维度

维度是名称/值对,是指标身份的一部分。

单位

所有统计数据都有度量单位。Amazon MWAA 的单位包括数量计数

尺寸

本节介绍中 Amazon MWAA 指标的 CloudWatch 维度分组。 CloudWatch

维度 描述

集群

Amazon MWAA 环境用于运行 Apache Airflow 组件的最少三个 Amazon ECS 容器的指标:计划程序、工作线程和 Web 服务器。

队列

Amazon SQS 队列的指标,用于将计划程序与工作线程分离。当工作线程阅读消息时,它们被视为机上信息,不适用于其他工作线程。如果消息在 12 小时可见性超时之前未被删除,则这些消息可供其他工作线程阅读。

数据库

Amazon MWAA 使用的 Aurora 集群的指标。这包括主数据库实例和支持读取操作的只读副本的指标。Amazon MWAA 同时发布 READER 和 WRITER 实例的数据库指标。

在 CloudWatch 控制台中访问指标

本节介绍如何在中访问您的亚马逊 MWAA 指标。 CloudWatch

要查看维度的性能指标,请执行以下操作
  1. 在 CloudWatch 控制台上打开 “指标” 页面

  2. 使用 Amazon 区域选择器选择您的区域。

  3. 选择 AWS/MWAA 命名空间。

  4. 所有指标选项卡中,选择一个维度。例如,集群

  5. 为维 CloudWatch 度选择一个指标。例如,NumSchedulersCPU 利用率。然后,选择绘制所有搜索结果的图表

  6. 选择图表化指标选项卡以查看性能指标。

指标的列表

下表列出了 Amazon MWAA 的集群、队列和数据库服务指标。要查看直接从 Amazon ECS、Amazon SQS 或 Amazon RDS 发布的指标的描述,请选择相应的文档链接。

集群指标

以下指标适用于每个计划程序、基础工作线程、其他工作线程和 Web 服务器。有关每个集群指标的更多信息和描述,请参阅《Amazon ECS 开发人员指南》中的可用指标和维度

命名空间 指标 单位

AWS/MWAA

CPUUtilization

百分比

AWS/MWAA

MemoryUtilization

百分比

评估额外工作线程实例的数量

您可以使用集群维度下提供的组件指标(如以下过程所述)来评估环境在给定时间点正在使用的额外工作线程。为此,您可以绘制 CPUUss ionation 或MemoryUtilization指标的图表,并将统计数据类型设置为 “样本数”。结果值是 AdditionalWorker 组件的 RUNNING 任务总数。了解环境使用的额外工作线程实例数可以帮助您衡量环境的自动扩缩情况,并允许您优化额外工作线程的数量。

  1. 选择 AWS/MWAA 命名空间。

  2. 所有指标选项卡中,选择集群维度。

  3. 集群维度下 AdditionalWorker,为选择 CPU利用率或指标。MemoryUtilization

  4. 绘成图表的指标选项卡上,将周期设置为 1 分钟,将统计数据更改为样本数

有关更多信息,请参阅《Amazon Elastic Container Service 开发人员指南》中的服务 RUNNING 任务数

数据库指标

以下指标适用于每个数据库实例,直到其被 Amazon RDS 代理所取代。有关以下数据库指标的更多信息和描述,请参阅亚马逊关系数据库服务用户指南中的 Amazon RDS CloudWatch 指标

命名空间 指标 单位

AWS/MWAA

CPUUtilization

百分比

AWS/MWAA

DatabaseConnections

计数

AWS/MWAA

DiskQueueDepth

计数

AWS/MWAA

FreeableMemory

字节

AWS/MWAA

VolumeWriteIOPS

每 5 分钟计数

AWS/MWAA

WriteIOPS

每秒计数

AWS/MWAA

WriteLatency

AWS/MWAA

WriteThroughput

每秒字节数

Amazon RDS 代理的数据库指标(如果可用)

有关以下数据库代理指标的更多信息描述,请参阅 Amazon Relational Database S ervice 用户指南 CloudWatch中的使用监控 Amazon RDS 代理指标

命名空间 指标 单位

AWS/MWAA

ClientConnections

计数

AWS/MWAA

ClientConnectionsClosed

计数

AWS/MWAA

ClientConnectionsReceived

计数

AWS/MWAA

AvailabilityPercentage

百分比

AWS/MWAA

DatabaseConnectionsCurrentlyInTransaction

计数

AWS/MWAA

DatabaseConnectionsSetupFailed

计数

AWS/MWAA

DatabaseConnectionsSetupSucceeded

计数

AWS/MWAA

DatabaseConnectionRequests

计数

AWS/MWAA

DatabaseConnections

计数

AWS/MWAA

QueryDatabaseResponseLatency

微秒

AWS/MWAA

QueryRequests

计数

AWS/MWAA

QueryResponseLatency

微秒

队列指标

有关以下队列指标的单位和描述的更多信息,请参阅《亚马逊简单队列服务开发者指南》中的 Ama zon SQS 可用 CloudWatch 指标

命名空间 指标 单位

AWS/MWAA

ApproximateAgeOfOldestMessage

AWS/MWAA

ApproximateNumberOfMessagesNotVisible(正在运行的任务)

计数

AWS/MWAA

ApproximateNumberOfMessagesVisible(已排队的任务)

计数