监控 Amazon MSK Connect - Amazon Managed Streaming for Apache Kafka
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

监控 Amazon MSK Connect

监控对于保持 MSK Connect 和其他 Amazon 解决方案的可靠性、可用性和性能十分重要。Amazon CloudWatch 可实时监控您的 Amazon 资源,以及在 Amazon 上运行的应用程序。您可以收集和跟踪指标,创建自定义的控制平面,以及设置警报以在指定的指标达到您指定的阈值时通知您或采取措施。例如,您可以让 CloudWatch 跟踪 CPU 使用率或连接器的其他指标,以便在需要时增加其容量。有关更多信息,请参阅《Amazon CloudWatch 用户指南》。

您可以使用以下 API 操作:

  • DescribeConnectorOperation:监控连接器更新操作的状态。

  • ListConnectorOperations:跟踪以前在连接器上运行的更新。

下表显示了 MSK Connect 在 ConnectorName 维度下发送给 CloudWatch 的指标。MSK Connect 默认会提供这些指标,无需额外费用。CloudWatch 会保留这些指标 15 个月,以便您可以访问历史信息,更好地了解连接器的执行情况。此外,可以设置用于监测特定阈值的警报,并在达到相应阈值时发送通知或执行操作。有关更多信息,请参阅《Amazon CloudWatch 用户指南》。

指标名称 描述
CpuUtilization 系统和用户的 CPU 消耗百分比。
ErroredTaskCount 已出错的任务数量。
MemoryUtilization 工作程序实例上总内存的百分比,而不仅仅是当前正在使用的 Java 虚拟机(JVM)堆内存。JVM 通常不会将内存释放回操作系统。因此,JVM 堆大小(MemoryUtilization)通常从最小堆大小开始,逐渐增加到约 80-90% 的稳定最大值。随着连接器实际内存使用量的变化,JVM 堆使用量可能会增加或减少。
RebalanceCompletedTotal 此连接器完成的重新平衡总数。
RebalanceTimeAvg 连接器在重新平衡上花费的平均时间(以毫秒为单位)。
RebalanceTimeMax 连接器在重新平衡上花费的最长时间(以毫秒为单位)。
RebalanceTimeSinceLast

自此连接器完成最近一次重新平衡以来的时间(以毫秒为单位)。

RunningTaskCount 连接器中正在运行的任务数量。
SinkConsumerByteRate 在对数据应用任何转换之前,Kafka Connect 框架的接收器使用者每秒使用的平均字节数。
SinkRecordReadRate 平均每秒从 Apache Kafka 或 Amazon MSK 集群读取的记录数量。
SinkRecordSendRate 平均每秒从转换中输出并发送到目标的记录数量。此数量不包含筛选后的记录。
SourceRecordPollRate 平均每秒生成或轮询的记录数量。
SourceProducerByteRate 在对数据应用任何转换之前,Kafka Connect 框架的源创建者每秒生成的平均字节数。
SourceRecordWriteRate 平均每秒从转换中输出并写入 Apache Kafka 或 Amazon MSK 集群的记录数量。
TaskStartupAttemptsTotal 连接器已尝试的任务启动总数。您可以使用此指标来识别任务启动尝试中的异常情况。
TaskStartupSuccessPercentage 连接器成功启动任务的平均百分比。您可以使用此指标来识别任务启动尝试中的异常情况。
WorkerCount 在连接器中运行的工作程序数量。
BytesInPerSec 传输至 Kafka Connect 框架用于工作程序之间通信的元数据字节数。
BytesOutPerSec 从 Kafka Connect 框架传输的用于工作程序之间通信的元数据字节数。