监控 for SQL 应用程序 - 适用于 SQL 应用程序的 Amazon Kinesis Data Analytics 开发人员指南
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

对于新项目,建议您使用新的适用于 Apache Flink Studio 的托管服务,而不是使用适用于 SQL 应用程序的 Kinesis Data Analytics。Managed Service for Apache Flink Studio 不仅操作简单,还具有高级分析功能,使您能够在几分钟内构建复杂的流处理应用程序。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 for SQL 应用程序

要保持 和 应用程序的可靠性、可用性和性能,监控是一个重要环节。您应该从 Amazon 解决方案的所有部分收集监控数据,以便在出现多点故障时可以更轻松地进行调试。不过,在开始监控 之前,您应制定一个监控计划并在计划中回答下列问题:

  • 监控目的是什么?

  • 您将监控哪些资源?

  • 监控这些资源的频率如何?

  • 您将使用哪些监控工具?

  • 谁负责执行监控任务?

  • 出现错误时应通知谁?

下一步,通过在不同时间和不同负载条件下测量性能,在您的环境中建立正常 性能的基准。在监控 时,您可以存储历史监控数据。如果您这样做,则可以将历史监控数据与当前性能数据进行比较,确定性能的正常模式和性能异常,并找出解决问题的方法。

通过使用 ,您可以监控应用程序。该应用程序处理数据流(输入或输出),这两个数据流都包含标识符,您可以使用这些标识符来缩小对 CloudWatch 日志的搜索范围。有关 如何处理数据流的信息,请参阅 适用于 SQL 应用程序的 Amazon Kinesis Data Analytics:工作原理

最重要的指标是 millisBehindLatest,表示应用程序读取流式传输源的滞后程度。通常情况下,滞后时间应当为零或接近零毫秒。通常会出现短暂峰值,millisBehindLatest 中会出现增长。

我们建议您设置一个 CloudWatch 警报,当应用程序在读取直播源时延迟超过一个小时时触发该警报。对于某些几乎要求实时处理的使用情况(例如,将已处理的数据发送到实时应用程序),您可以选择将警报设置为更低值,如 5 分钟。