监控 DAX
监控是保持 Amazon DynamoDB Accelerator (DAX) 和您的 Amazon 解决方案的可靠性、可用性和性能的重要方面。您应从 Amazon 解决方案的所有部分收集监控数据,以便更轻松地调试出现的多点故障。
在开始监控 DAX 之前,您应该创建一个监控计划,其中包括以下问题的答案:
-
监控目的是什么?
-
您将监控哪些资源?
-
监控这些资源的频率如何?
-
您将使用哪些监控工具?
-
谁负责执行监控任务?
-
出现错误时应通知谁?
下一步,通过在不同时间和不同负载条件下测量性能,在您的环境中建立正常 DAX 性能的基准。监控 DAX 时,您应考虑存储历史监控数据。此存储数据将为您提供与当前性能数据进行比较的基准,确定正常性能模式和性能异常,以及设计解决问题的方法。
要建立基准,您应至少在负载测试期间和生产中监控以下各项:
-
CPU 使用率和限制的请求数,以便您可以确定是否可能需要在集群中使用较大的节点类型。可通过
CPUUtilization
CloudWatch 指标获得集群的 CPU 使用率。 -
操作延迟(在客户端测量)应始终与应用程序的延迟要求保持一致。
-
错误率应保持较低水平,如
ErrorRequestCount
、FaultRequestCount
和FailedRequestCount
CloudWatch 指标中所示。
除上述项目之外,您至少应监控生产中的以下其他项目:
-
估计的数据库大小和移出大小,以便您可以确定集群的节点类型是否有足够的内存来存放您的工作集。
-
客户端连接,以便您可以监控集群连接中任何无法解释的峰值。