监控 Amazon MSK Connect - Amazon Managed Streaming for Apache Kafka
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 Amazon MSK Connect

监控是维护 MSK Connect 和其他 Amazon 解决方案的可靠性、可用性和性能的重要组成部分。Amazon 会实时 CloudWatch 监控您的 Amazon 资源和您运行 Amazon 的应用程序。您可以收集和跟踪指标,创建自定义的控制平面,以及设置警报以在指定的指标达到您指定的阈值时通知您或采取措施。例如,您可以 CloudWatch 跟踪连接器的 CPU 使用率或其他指标,以便在需要时增加其容量。有关更多信息,请参阅 Amazon CloudWatch 用户指南

您可以使用以下 API 操作:

  • DescribeConnectorOperation:监控连接器更新操作的状态。

  • ListConnectorOperations: 跟踪以前在连接器上运行的更新。

下表显示了 MSK Connect 向该ConnectorName维度 CloudWatch 下发送的指标。默认情况下,MSK Connect 提供这些指标,不收取额外费用。 CloudWatch 将这些指标保留 15 个月,这样您就可以访问历史信息并更好地了解连接器的性能。还可以设置特定阈值监视警报,在达到对应阈值时发送通知或采取行动。有关更多信息,请参阅 Amazon CloudWatch 用户指南

指标名称 描述
CpuUtilization 系统和用户的 CPU 消耗百分比。
ErroredTaskCount 已出错的任务数量。
MemoryUtilization 工作程序实例上总内存的百分比,而不仅仅是当前正在使用的 Java 虚拟机(JVM)堆内存。JVM 通常不会将内存释放回操作系统。因此,JVM 堆大小 (MemoryUtilization) 通常从最小堆大小开始,该堆大小逐渐增加到稳定的最大值,约为 80-90%。随着连接器实际内存使用量的变化,JVM 堆使用量可能会增加或减少。
RebalanceCompletedTotal 此连接器完成的重新平衡总数。
RebalanceTimeAvg 连接器在重新平衡上花费的平均时间(以毫秒为单位)。
RebalanceTimeMax 连接器在重新平衡上花费的最长时间(以毫秒为单位)。
RebalanceTimeSinceLast

自此连接器完成最近一次重新平衡以来的时间(以毫秒为单位)。

RunningTaskCount 连接器中正在运行的任务数量。
SinkConsumerByteRate 在对数据进行任何转换之前,Kafka Connect 框架的 Sink 使用者每秒消耗的平均字节数。
SinkRecordReadRate 平均每秒从 Apache Kafka 或 Amazon MSK 集群读取的记录数量。
SinkRecordSendRate 平均每秒从转换中输出并发送到目标的记录数量。此数量不包含筛选后的记录。
SourceRecordPollRate 平均每秒生成或轮询的记录数量。
SourceProducerByteRate 对数据进行任何转换后,Kafka Connect 框架的源生成器每秒产生的平均字节数。
SourceRecordWriteRate 平均每秒从转换中输出并写入 Apache Kafka 或 Amazon MSK 集群的记录数量。
TaskStartupAttemptsTotal 连接器已尝试的任务启动总数。您可以使用此指标来识别任务启动尝试中的异常情况。
TaskStartupSuccessPercentage 连接器成功启动任务的平均百分比。您可以使用此指标来识别任务启动尝试中的异常情况。
WorkerCount 在连接器中运行的工作程序数量。
BytesInPerSec 元数据字节传输到 Kafka Connect 框架,用于工作人员之间的通信。
BytesOutPerSec 从 Kafka Connect 框架传输的用于工作人员之间通信的元数据字节。